인공지능과 임상적 의사결정: 의학적 불확실성의 새로운 본성(Acad Med, 2021)
Artificial Intelligence and Clinical Decision Making: The New Nature of Medical Uncertainty
Vinyas Harish, Felipe Morgado, Ariel D. Stern, PhD, and Sunit Das, MD, PhD

 

 

의료 진단의 목표는 다음과 같습니다. 질병 또는 질병을 정확하게 식별하기 위해 환자의 질병을 구분하는 일련의 주관적이고 객관적인 발견(증거 및 징후)을 식별한다. 비록 정확한 진단 효과적인 환자 진료를 위한 핵심이기 때문에, 임상 의사 자주 이 과정에서 실패한다. 사실 의료 제공자들과 환자 불만의 진단을 받지 못한다면 중요한 원인. 불확실성 완화 환자들의 임상 필요성과 그들의 조건에 그들의 걱정을 해결하는 데 필수적이다. 따라서 의료적 의사 결정에서 [불확실성의 본성]을 고려하는 것은 진단을 개선하고자 노력에서 가치가 있다.

Medical diagnosis has a singular goal: to identify the set of subjective and objective findings (symptoms and signs) that demarcate a patient’s illness to correctly identify a disease or diseases. Although accurate diagnosis is central to effective patient care, clinicians often fail in this process. In fact, not receiving a diagnosis is a significant cause of patient dissatisfaction with medical providers.1,2 Mitigating uncertainty is integral to addressing both the clinical needs of patients and their anxieties over their condition. Thus, considering the nature of uncertainty in medical decision making can be valuable in attempting to improve diagnoses.

진단은 논리적 추론과 패턴 인식을 수반하는 복잡한 인지 작업이다. Richardson과 Wilson은 진단 과정에 두 가지 필수적인 단계가 포함된다고 설명합니다.

  • 첫째, 임상의는 진단 가능성을 열거하고 상대적 가능성을 추정합니다.
  • 둘째, 임상의는 상대적인 확률을 업데이트하기 위해 새로운 정보를 통합하고, 특정 가능성을 배제하고, 궁극적으로 가장 가능성이 높은 진단을 선택한다. 

따라서 새로운 발견이 있을 때마다 임상의는 한 확률(검사 전 확률)에서 다른 확률(검사 후 확률)로 이동하여 진단에 도달합니다.

Diagnosis is a complex cognitive task that involves logical reasoning and pattern recognition.3,4 Richardson and Wilson describe the process of diagnosis as involving 2 essential steps.5 

  • First, the clinician enumerates the diagnostic possibilities and estimates their relative likelihood.
  • Second, the clinician incorporates new information to update the relative probabilities, rules out certain possibilities, and, ultimately, chooses the most likely diagnosis.

Thus, with each new finding, the clinician moves from one probability (the pretest probability) to another probability (the posttest probability) to arrive at a diagnosis.

불확실성은 또한 [진단 과정의 하류downstream]에 영향을 미친다. 후속 치료 제공은 환자의 현재 상태(예후)를 고려하여 미래에 환자에게 어떤 일이 일어날지, 치료나 예방이 질병의 자연적인 진행을 어떻게 변화시킬 수 있는지에 대한 교육을 받은 예측을 포함한다. 풀러(Fuller)와 플로레스(Flores)는 이 과정을 다음과 같은 두 가지 추론을 포함한다고 기술했다. 

  • 연구 모집단에서 관심 대상 환자 모집단으로 위험을 일반화하고, 
  • 특정 개인이 대상 모집단에 속할 확률을 환자별로 추정한다.

Uncertainty also has implications downstream from the process of diagnosis. The subsequent delivery of care involves an educated prediction of what will happen to the patient in the future given his or her present condition (i.e., the prognosis), and how treatment or prevention might alter the natural progression of the disease. Fuller and Flores have described this process as involving 2 distinct inferences:

  • generalizing risk from a study population to the target-patient population of interest,
  • followed by a patient-specific estimation of the probability that a given individual falls within the target population.6

우리가 보기에 임상의사가 임상 의사 결정 프레임워크의 필수적인 부분으로 인공지능(AI)의 힘을 성공적으로 활용하려면, [불확실성]을 [최소화해야 하는 절대값]이 아닌 [상대적인 척도]로 보는 법을 배워야 한다. 이러한 주장을 뒷받침하기 위해, 우리는 인기 있는 AI 방법(딥 러닝)이 IBM의 Watson의 사례 연구를 통해 복잡한 의사 결정 작업을 처리하는 방법과 이러한 방법을 의료 의사 결정으로 변환하는 것이 불확실성에 대한 중요한 고려 사항을 어떻게 노출했는지 조사한다.
In our view, for clinicians to successfully harness the power of artificial intelligence (AI) as an integral part of the clinical decision-making framework, they should learn to see uncertainty as a relative measure rather than an absolute value that must be minimized. To support this claim, we examine how a popular class of AI methods (deep learning) process complex decision-making tasks through a case study of IBM’s Watson and how the translation of these methods to medical decision making has exposed significant considerations around uncertainty.

인공지능의 약속
The Promise of AI

핵심을 보면, AI는 [패턴 인식을 사용하여 예측을 하는 도구]이다. 따라서, AI는 특정 관리 및 일정 의료 분야에서 활용되어 왔다. 예를 들어, 환자에게 처방전을 다시 채우도록 자동 알림은 약물 준수를 촉진할 수 있다. 딥 러닝과 같은 특정 접근 방식은 점점 복잡해지는 데이터 세트에서 AI의 예측 성능을 향상시켰다. 이 능력은 진단 및 치료와 같이 전통적으로 인간 전문가에 국한된 의료 분야에서 AI의 사용을 가능하게 했다.

At its core, AI is a tool for using pattern recognition to make predictions. Thus, AI has been leveraged in certain administrative and scheduling domains of medicine; for instance, automated reminders for patients to refill their prescriptions can promote medication adherence.7 Certain approaches such as deep learning have improved AI’s predictive performance on increasingly complex datasets. This ability has enabled the use of AI in domains of medicine traditionally limited to human experts, such as diagnosis and treatment.8

AI 지지자들은 인간의 분석 능력이 진단을 방해한다고 믿고 있으며, AI가 분석 과정을 세분화할 것으로 기대하고 있다. 이러한 [초기의 낙관주의]는 아마도 이미지가 지배하는 의학 분야에서 가장 크게 실현되었을 것이다.

  • 2017년 네이처지에 실린 기사에서, 스탠퍼드 대학교의 한 다학제 그룹은 암을 양성 지루성 각성제 및 신경증과 구별하기 위해 설계된 인식 작업에서 21명의 이사회 인증 피부과 의사와 비슷한 성능을 발휘하는 컨볼루션 신경망을 개발했다. 이후 악성 흑색종을 식별하고 이러한 암을 양성 병변으로부터 적절히 분리하는 데 있어 58명의 피부과 의사보다 우수한 결과를 낼 수 있는 유사한 알고리즘이 개발되었다.
  • 신경학에서 싯다르타 무케르지(Siddharta Mukherjee)는 컴퓨터 단층 촬영 스캔에서 뇌졸중의 초기 징후를 식별하는 AI의 능력에 대해 썼는데, 이는 초기 개입과 결과적으로 환자 결과를 개선하는 데 깊은 영향을 미칠 수 있다.
  • 마지막으로, 중국의 최근 연구는 여러 장기 시스템에 걸쳐 광범위한 소아 질환을 진단하기 위해 130만 개의 소아 전자 건강 기록의 다면적인 임상 데이터를 통합한 자연어 처리 시스템(즉, 장기 단기 기억 네트워크, 딥 러닝 접근 방식)을 설명했습니다. 이 시스템은 경험이 많은 의사들의 시스템과 비슷했다.

AI proponents believe that diagnosis is hindered by humans’ analytic capabilities and expect AI to refine the analytic process.9 This early optimism has perhaps been most significantly realized in areas of medicine dominated by imaging. In a 2017 article in the journal Nature, a multidisciplinary group from Stanford University developed a convolutional neural network that performed comparably to 21 board-certified dermatologists on a recognition task designed to differentiate cancers from benign seborrheic keratoses and nevi.10 A similar algorithm has since been developed that was able to outperform 58 dermatologists in identifying malignant melanomas and properly segregating these cancers from benign lesions.11 In neurology, Siddhartha Mukherjee has written about the ability of AI to identify early signs of stroke on computed tomography scans, which could have profound implications for early intervention and consequently improving patient outcomes.12 Finally, a recent study from China described a natural language processing system (i.e., a long short-term memory network, a type of deep learning approach) that integrated multifaceted clinical data from 1.3 million pediatric electronic health records to diagnose a wide range of childhood diseases across multiple organ systems; the performance of this system was comparable to that of experienced physicians.13

위의 첫 번째 두 가지 예는 시각적 패턴 인식 및 이미지 분석을 나타낸다. 두 응용 분야에서 AI를 적용하는 목표는 인간의 임상 지식을 기반으로 할 뿐만 아니라, [인간이 볼 수 없는 패턴과 특징을 식별하는 알고리즘]을 개발하는 것이었다. 그러나 두 경우 모두 주관적 증거(예: 환자의 질병 경험)가 객관적 데이터(예: 임상 검사 소견, 실험실 시험, 영상)에 대한 임상 의사의 이해, 수집 및 해석을 알려주는 대부분의 다른 임상 상황의 전형적인 진단 프로세스와는 다르다. 세 번째 예는 진단 프로세스의 많은 부분을 캡슐화하기 때문에 주목할 만하다.

The first 2 examples above represent visual pattern recognition and image analysis. In both applications, the goal of applying AI has been to develop an algorithm that not only builds on human clinical knowledge but also identifies patterns and features invisible to humans. Yet both cases diverge from the diagnostic process typical of most other clinical situations in which subjective evidence (e.g., the patient’s experience of illness) informs a clinician’s understanding, gathering, and interpretation of objective data (i.e., clinical exam findings, lab tests, imaging). The third example is notable because it encapsulates much of the diagnostic process.

일상 업무에서 임상의는 종종 결정적이지 않은 증거에도 불구하고(증거 때문에가 아니라) 결정을 내려야 한다. Redelmeier와 Shafir가 제시한 의료 의사결정에 대한 또 다른 도전은 주어진 상황에서 여러 대안을 저울질하는 어려움, 즉 인지 편향이라고 부르는 것이다. 그들은 한 가지 이상의 약을 처방받은 가정의사들이 어떤 약도 처방할 가능성이 낮다는 것을 발견했다. 예비 진단preliminary diagnosis이 모호한 상태로 남겨진 어려운 임상적 만남도 흔하다. 1989년 한 연구에서 미국에서 외래환자의 거의 90%가 환자의 증상을 설명하는 유기적 진단에 도달하지 못했다고 보고되었다. 보다 최근의 검토(2017)는 설명되지 않은 증상unexplained symptoms이 전체 일반 진료 상담의 10%에서 15%를 차지하는 것을 시사한다. 이러한 비율은 설명할 수 없는 증상의 좌절과 혼란을 겪고 있는 많은 수의 절대적인 환자들과 같다. 진단 불확실성의 부담은 입원 환자 환경에서 덜 잘 연구되지만, 한 연구에 따르면 폐렴 환자의 22%가 충분한 진단 불확실성을 제시하여 이러한 사례를 검토하는 외부 임상의가 항생제 치료를 지연시킬 것이라고 말한 후 이러한 사례를 검토하는 것으로 나타났다. 
In daily practice, clinicians often need to make decisions in spite of, rather than because of, inconclusive evidence. Another challenge to medical decision making brought forward by Redelmeier and Shafir is the difficulty of weighing multiple alternatives in a given situation, what they call a cognitive bias.14 They found that family physicians who were presented with more than 1 choice of medication were less likely to prescribe any medication. Clinical encounters in which a preliminary diagnosis remains elusive are common. It was reported in a 1989 study that in nearly 90% of outpatient patient encounters in the United States, physicians were unable to reach an organic diagnosis that accounted for their patient’s symptoms.15 A more recent review (2017) suggests that unexplained symptoms account for 10% to 15% of all general practice consultations.16 These percentages equate to a large absolute number of patients living with the frustration and confusion of unexplained symptoms. The burden of diagnostic uncertainty is less well studied in the inpatient setting; however, one study found that 22% of patients with pneumonia presented with enough diagnostic uncertainty that the external clinicians reviewing these cases after the fact said they would have delayed antibiotic treatment.17

기술 옹호론자들은 임상 진단의 실패는 인간 인지의 한계로 인한 결과이며, 그만큼 AI와 같은 도구의 도입을 통해 의료를 강화할 수 있는 기회라고 주장해왔다. 환자의 전체 의료 기록에서 여러 가능성을 고심하는 의사에게 상세한 정보를 통합하는 임상 의사 결정 지원을 위한 도구를 제공하는 것은 현재 존재하는 인식 편향을 해결하는 데 큰 도움이 될 수 있다. 그러나 이러한 접근 방식의 지지자들은 [AI 진단 전문가]가 [이산적인 대답]이 아닌 [확률적 대답]을 생성한다는 것을 알게 되면 실망할 수 있다.
Technology advocates have argued that failures of clinical diagnostics are the result of the limits of human cognition, and, as such, are an opportunity to enhance medical care through the introduction of tools such as AI.18,19 Providing tools for clinical decision support that incorporate detailed information from a patient’s entire medical record to a physician grappling with multiple possibilities could go a long way to resolving the cognitive bias Redelmeier and Shafir present. However, proponents of such an approach might be disappointed to learn that an AI diagnostician generates probabilities rather than discrete answers.

인공지능의 사용은 근본적으로 우리가 의료 의사 결정의 불확실성을 용인하는 정도에 의문을 제기한다. 일부에서는 [불확실성]을 바람직하지 않은 것으로 보고, 최적의 의사결정은 [불확실성의 최소화]에 기반한다고 주장한다. 그러나 의학적 의사결정은 매우 복잡하다; 한 연구는 45개의 요인이 진단 과정에 영향을 미칠 수 있다고 제안했다. 임상의가 다양한 진단의 가능성(및 다양한 치료의 유용성)을 서로 비교 평가할 수 있도록 돕는 [AI를 사용하더라도 진단 불확실성을 0으로 줄이는 것은 불가능하다]. 우리는 임상 의사 결정 프레임워크에 AI를 성공적으로 통합하려면 임상의가 불확실성을 최소화하기 위한 [절대값]이 아닌 [상대적 척도]로 처리해야 한다고 믿는다. 우리의 주장을 탐구하기 위해, 우리는 IBM의 Watson의 사례 연구를 사용하여 그러한 시스템이 복잡한 의사 결정 작업을 처리하는 방법을 조사한다. 우리는 또한 이러한 작업을 의료 의사 결정으로 변환하는 것이 불확실성에 대한 중요한 고려 사항을 어떻게 노출했는지 살펴본다.
The use of AI fundamentally calls into question the extent to which we tolerate uncertainty in medical decision making. Some view uncertainty as undesirable and argue that optimal decision making is based on the minimization of uncertainty. Yet medical decision making is extraordinarily complex; one study suggested that 45 factors can influence the diagnostic process.20 Even with AI to help clinicians weigh the likelihood of various diagnoses (and the usefulness of various treatments) against one another, it is not possible to reduce diagnostic uncertainty to zero. We believe that successful integration of AI into the clinical decision-making framework requires clinicians to handle uncertainty as a relative measure rather than an absolute value to minimize. To explore our claim, we use a case study of IBM’s Watson to examine how such systems process complex decision-making tasks. We also look at how translating these tasks to medical decision making has exposed significant considerations around uncertainty.

왓슨과 제퍼디
Watson and Jeopardy

2011년 1월, Jeopardy라는 텔레비전 프로그램에서 3일간의 특별 이벤트에서 IBM의 AI 시스템인 Watson은 2명의 이전 쇼 챔피언과 경쟁했다. 왓슨 팀의 목표는 질문에 답하기 위해 자연어를 처리할 수 있는 정교한 질의 기계를 개발하는 것이었다. 대부분의 인간 질문은 컴퓨터 운영 체제의 이산 논리에 대해 깔끔하게 정의되지 않았기 때문에, 왓슨은 

  • 인간(Jeopardy 호스트)이 표현한 질문을 일련의 검색 목표로 처리하고
  • 질의와 관련된 정보를 포함하는 지식(예: 위키백과 페이지, 신문 기사, 학술 논문, 특허 파일)을 찾고
  • 관련 정보를 확인하고
  • 가장 가능성이 높고 인간이 이해할 수 있는 답변을 종합해야 한다.

In January 2011, during a 3-day special event on the television program Jeopardy, IBM’s AI system, Watson, competed against 2 former show champions. The Watson team’s aim was to develop a sophisticated query machine that could process natural language to answer questions.21,22 Because most human questions are not neatly defined for the discrete logic of a computer operating system, Watson had to

  • process the human-phrased question the Jeopardy host asked into a set of search aims,
  • find bodies of knowledge that contained information relevant to the query (e.g., Wikipedia pages, newspaper articles, academic papers, patent files),
  • identify relevant information, and
  • synthesize an answer that most likely satisfied the query and that humans could understand.


왓슨 시스템은 DeepQA라고 불리는 접근법을 따랐다. DeepQA에는 4가지 기본 단계가 있습니다. 컴퓨터 

  • (1) 질문을 분석하여 서로 다른 해석이 존재하는지 여부를 확인합니다. 
  • (2) 여러 데이터베이스를 검색하고 수천 개의 가능한 답변을 생성합니다. 
  • (3) 알고리즘 모음을 사용하여 단어와 구 사이의 학습된 관계를 기반으로 가능한 답을 채점한다. 
  • (4) 가중치를 부여하고 순위를 매기고 신뢰도가 높은 순서대로 답을 제시합니다. 

왓슨의 가장 높은 순위의 대답이 신뢰의 문턱을 넘는다면, 그것은 진행자의 질문에 답하려고 시도할 것이다.

The Watson system followed an approach called DeepQA.21 DeepQA has 4 basic steps: The computer

  • (1) analyzes the question to determine whether different interpretations exist;
  • (2) searches multiple databases and generates thousands of possible answers;
  • (3) scores possible answers on the basis of learned relationships between words and phrases using a collection of algorithms; and
  • (4) weights, ranks, and presents the answers in order of decreasing confidence.

If Watson’s highest-ranking answer surpassed a confidence threshold, it would attempt to answer the host’s question.

특히, 왓슨의 "생각하는" 과정은 인간 제퍼디 참가자가 질문을 처리하는 방식을 반영하지 않았다. 인간과 왓슨 모두 신뢰 기반 접근 방식을 채택하지만, 왓슨만이 신뢰를 정량화할 수 있고 객관적인 지표로 명시적으로 통합했다. 왓슨은 인간과 달리 원시 데이터에서 발생할 수 있는 모든 개념과 각각의 질문을 연관시키기 때문에 이러한 방식으로 진행해야 했다. 반면에 인간은 정답을 알고 있는지 아닌지에 대한 즉각적인 본능을 가지고 있다. 이러한 직관적인 자신감은 참가자들에게는 주관적인 경험이다. 따라서 DeepQA 과 같은 AI 접근법은 인간의 지능과는 근본적으로 다른 방식으로 기능한다. 대중 문화에서, 인간과 비인간적인 추리 사이의 마찰은 종종 희극적인 안도감을 주기 위해 강조된다. 스타트렉의 데이터, 스타워즈의 C-3PO와 같은 인공지능을 이용한 캐릭터들은 상황의 감정적 심각성을 회피하기 때문에 결코 잘 착륙하지 않는 논리적 조언을 제공함으로써 인간 상대방을 당황하게 만든다. AI가 공상 과학 소설에서 과학적 사실 및 의료 실천으로 이동함에 따라, 우리는 추론 접근에서 이러한 차이를 조정해야 한다.

Notably, Watson’s “thinking” process did not mirror how a human Jeopardy contestant processes questions. While both humans and Watson take confidence-driven approaches, only Watson explicitly incorporated confidence as a quantifiable and objective metric. Watson had to proceed in this manner because, unlike humans, it associates all potentially related concepts from raw data with each question. Humans, on the other hand, have an immediate instinct for whether they know the correct answer. This intuitive confidence is a subjective experience for a human contestant. AI approaches such as DeepQA therefore function in a way that is fundamentally different from human intelligence.23,24 In pop culture, the friction between human and nonhuman reasoning is often highlighted to provide comedic relief. AI-powered characters such as Data in Star Trek and C-3PO in Star Wars baffle their human counterparts by offering logical advice that never lands well because it sidesteps the emotional gravity of a situation. As AI moves from science fiction into scientific fact and medical practice, we must reconcile these differences in reasoning approaches.

그것의 3개의 경기 Jeopardy의 실행의 끝에 왓슨은 상당한 차이로 그것의 인간 경쟁자들을 물리쳤다. 이 결과는 인상적이었지만, 왓슨의 가장 기억에 남는 순간은 마지막 라운드에서 미국 도시에 대한 질문에 "토론토"라고 대답한 것이다. 이 경우, 왓슨의 확률론적 답변 설계는 완전한 확신을 가진 해결책을 배제하는 것을 막았고, 청중이 분명히 잘못 알고 있다는 잘못된 (비록 낮은 신뢰도) 결론을 이끌어냈다.
By the end of its 3-game Jeopardy run, Watson had defeated its human competitors by a considerable margin.25 While this result was impressive, Watson’s most memorable moment for some came during the final round when it responded “Toronto” to a question about American cities. In this instance, Watson’s probabilistic answering design prevented it from excluding any solutions with total certainty, leading to an incorrect (albeit low-confidence) conclusion that the audience knew was obviously incorrect.

이 일화는 대중이 불확실성 하에서 작동하는 AI 시스템에 대해 불편해할 수 있는 이유를 예시한다. 시스템이 의사결정력을 발휘하려면 AI 시스템이 결국 잘못된 추론을 이끌어내고 직관을 사용하는 인간은 이러한 잘못된 추론을 노골적으로 명백하게 볼 것이라는 점을 받아들여야 한다.
This anecdote exemplifies why the public may be uncomfortable with an AI system functioning under uncertainty. For a system to wield decision-making power, one must accept that the AI system will eventually draw incorrect inferences and that humans using intuition will see these incorrect inferences as blatantly obvious.

종양학을 위한 왓슨
Watson for Oncology

제퍼디(Jeopardy)에 대한 왓슨의 잘못된 추론은 의학에서 AI의 사용에 대한 지나치게 열성적인 약속에 [탄광의 카나리아 ]역할을 할 수 있다. DeepQA가 게임 쇼의 맥락에서 예외적으로 우수한 성능을 보였지만, 여전히 불확실성 하에서 중요한 시스템에서 사용할 준비가 되어 있는지 의문을 제기하는 행동을 보여주었다. 이러한 예감에도 불구하고 IBM은 의학, 특히 종양학을 왓슨의 초기 시장 기회로 파악했습니다.
Watson’s mistaken inference on Jeopardy may serve as a canary in the coal mine for overzealous promises about the use of AI in medicine. While DeepQA performed exceptionally well in the context of a game show, it still demonstrated behavior under uncertainty that called into question its readiness for use in critical systems.26 Despite this foreshadowing, IBM identified medicine, and oncology in particular, as an early market opportunity for Watson.

왓슨 포 온콜로지(Watson for Oncology)는 암 환자의 치료 방법을 제안하기 위해 방대한 양의 의학 문헌과 환자 정보를 소화하는 추천 엔진이다. 이 시스템은 의사들의 시간을 절약하고 그들이 환자들을 위해 더 나은 결과를 얻을 수 있도록 하기 위해 고안되었다. 개발 기간 동안 왓슨의 성장 능력은 훈련의 다른 단계에 있는 의료 전문가들의 능력에 비유되었다. 
2011년, 메릴랜드 대학교와 컬럼비아 대학교의 연구원들은 왓슨을 메들린, 펍메드, 의학 교과서에 대해 훈련시킨 후, 미국 의학 면허 시험(USMLE)과 뉴잉글랜드 의학 저널의 임상 병리학적 퍼즐러에서 왓슨을 테스트했다. 한 연구원은 그 시점에서 왓슨이 "가장 똑똑한 의대 2학년 학생 못지않다"고 선언했다.  2012년 왓슨은 케이스 웨스턴 리저브 대학의 클리블랜드 클리닉 러너 의과대학에서 더 많은 훈련을 받은 후 USMLE를 통과하였다. 왓슨은 2012년 말에 Memorial Sloan Kettering Cancer Center(MSKCC)에서 종양학을 전공하여 폐암, 전립선암, 유방암을 치료하는 모범 사례에 대해 배웠습니다. 마침내 2013년 10월, 왓슨은 MD Anderson Cancer Center의 광범위한 백혈병 데이터베이스에 대한 교육을 받았습니다
—최고의 학술 암 센터의 임상 연구원과 매우 유사합니다. 
Watson for Oncology is a recommendation engine that digests massive amounts of medical literature and patient information to suggest treatment approaches for cancer patients. The system was envisioned to save doctors time and empower them to achieve better outcomes for their patients. During its development, Watson’s growing abilities were likened to those of medical professionals at different stages of their training. In 2011, researchers at the University of Maryland and Columbia University trained Watson on Medline, PubMed, and medical textbooks, then tested Watson with questions from the United States Medical Licensing Exam (USMLE) and the New England Journal of Medicine’s clinicopathological puzzlers. One researcher proclaimed that Watson was at that point “as good as the smartest second-year medical student.”27 In 2012, Watson passed the USMLE after more training at the Cleveland Clinic Lerner College of Medicine of Case Western Reserve University.28 Watson then did its “residency” in oncology at Memorial Sloan Kettering Cancer Center (MSKCC) in late 2012, learning about best practices for treating lung, prostate, and breast cancers.29 Finally, in October 2013, Watson was trained on MD Anderson Cancer Center’s extensive leukemia database—subspecializing much like a clinical fellow at a top academic cancer center.30

2017년 6월, IBM의 CEO인 지니 로메티는 왓슨이 "세계 암의 80%를 유발하는 것"을 진단하고 치료할 수 있을 것이라고 발표했다. MD Anderson Cancer Center가 Watson과의 파트너십을 불과 몇 달 전에 끝냈다는 점을 감안할 때, 이 대담한 진술은 의학 저널리스트들 사이에서 눈살을 찌푸리게 했다.32 그 후 몇 달 동안, 여러 뉴스 매체들은 Watson for Oncology에 대한 그들의 사후 검시를 발표했다. 기자들이 의사, AI 전문가, 회사 임원들을 인터뷰한 후, 그들은 IBM이 암 치료의 복잡성과 뉘앙스를 인정하지 않고 "마케팅 엔진을 느슨하게 했다"고 비난했다. —또한 회사 제품의 한계도 고려해야 합니다.

In June 2017, IBM’s CEO Ginni Rometty announced that Watson would be able to diagnose and treat “what causes 80% of the cancer in the world.”31 This bold statement led to raised eyebrows among medical journalists given that the MD Anderson Cancer Center had ended its partnership with Watson just a few months earlier.32 In the months that followed, multiple news outlets released their postmortems on Watson for Oncology.33–35 After journalists conducted interviews with physicians, AI experts, and company executives, they blasted IBM for “[turning] the marketing engine loose” without acknowledging the complexity and nuance of cancer treatment—and, by extension, the limitations of the company’s product.

한 가지 분명한 우려는 왓슨의 권고사항의 [외적 타당성] 또는 [일반화 가능성]이었다. IBM은 MSKCC에서의 경험을 세일즈 포인트로 사용했지만, Watson이 뉴욕시의 한 기관과 그곳의 환자들로부터 대부분의 교육을 받도록 하는 이 접근 방식은 법률학자들이 "상황 편향Contextual bias"이라고 부르는 편향의 유형을 도입했습니다. 세계의 다른 지역의 의사들은 [그들이 추천한 치료법]과 [왓슨의 치료법] 사이의 일치도가 진단에 대해 [미국 의사들]과 [왓슨] 사이에서 보고된 일치도보다 낮다고 보고했다. 그들은 왓슨이 MSKCC 종양학자들로부터 배운 권고안이 그들의 환자들에게 적절하거나 적절하지 않을 수 있다고 주장했다. (예를 들어, MSKCC가 서비스하는 일반적으로 부유한 뉴욕 시민과는 크게 다를 수 있습니다.) 
또한, 국제 문헌을 조사할 때 [미국 연구에 불균형적으로 더 많은 비중을 두는 권고안]은 다른 나라의 의사들에게는 관련성이 낮을 수 있으며, 일종의 [의학적 민족주의]를 전파할 위험이 있다. 왓슨이 관련 결과를 반환한 것으로 밝혀진 사례에서도 왓슨의 입력은 전 세계 사례의 2%~10%(환자 1,680~8,400명 사이)에서만 진료 과정을 바꾼 것으로 추정됐다. 마지막으로, Watson for Oncology가 "치료"한 환자의 생존을 개선했는지에 대한 발표된 연구는 없습니다. AI 시스템의 권장 사항은 환자 치료에 따르기 전에 현지 요구 사항, 리소스 및 전문 지식을 통해 전달되고 조사되어야 할 것이 분명하다. 
One clear concern was the external validity, or generalizability, of Watson’s recommendations. While IBM used its experience at MSKCC as a selling point, this approach—having Watson get the majority of its training from one institution in New York City and the patients there—introduced a type of bias that legal scholars have termed “contextual bias.”36 Doctors in other parts of the world reported lower concordance between the treatments they recommended and Watson’s than the concordance reported for the diagnoses of U.S. doctors and Watson. They claimed that the recommendations Watson had learned from MSKCC oncologists may not be appropriate or relevant for their patients (who may, for example, be drastically different from the generally affluent New Yorkers served by MSKCC). Further, recommendations that disproportionately place more weight on American studies when surveying international literature may be less relevant for international practitioners and at risk of propagating a sort of medical ethnocentrism. Even in cases where Watson was found to return relevant results, Watson’s input was estimated to have changed the course of care in only 2% to 10% of cases globally (between 1,680 and 8,400 patients).37 Finally, there is no published research on whether Watson for Oncology improved survival for the patients it has “treated.”37 It is clear that recommendations from AI systems will need to be channeled through and vetted by local requirements, resources, and expertise before they are followed in patient care.

확신의 한계
The Limits of Certainty

Watson for Oncology와 같은 딥 러닝 기반 의사 결정 지원 시스템(DL-DSS)을 채택해야 한다는 압력은 진단 및 치료에 더욱 확산될 것입니다. 이러한 진화는 임상의, 규제 기관 및 정책 입안자들이 불확실성이 이러한 시스템에 내재하는 이유를 이해하도록 해야 한다. 미국 FDA는 [21세기 치료법]의 [소프트웨어 조항]에 어떤 유형의 임상 의사 결정 지원 소프트웨어가 더 이상 관할하지 않는지에 대한 명확성을 추가했다. 그러나 2020년 4월 현재 인간이 사용하고 관리하도록 설계된 DL-DSS에서 불확실성이 갖는 역할에 대한 정책 논의는 이루어지지 않고 있다. 또한, 법률 학자들은 이미 개발자가 "알고리즘의 기초가 되는 정보를 공개"해야 하는 보다 적응적인 규제 접근 방식을 주장하기 시작했다. 
Pressure to adopt deep learning–based decision support systems (DL-DSS) like Watson for Oncology will become more pervasive in diagnostics and treatment. This evolution should compel clinicians, regulators, and policymakers to seek to understand why uncertainty is intrinsic to these systems. The U.S. Food and Drug Administration has added clarity to the software provision in the 21st Century Cures Act as to which types of clinical decision support software are no longer under its jurisdiction. However, as of April 2020, no policy discussions have taken place around the role uncertainty has in DL-DSS designed to be used and administered by humans.38–41 Further, legal scholars have already begun to argue for more adaptive regulatory approaches that would require developers to “disclose information underlying their algorithms.”42

아마도 더 중요한 것은 AI의 임상 채택이 의학에 얼마나 본질적인 불확실성이 있는지를 반영하는 것일 수 있다. 윌리엄 오슬러 경이 언젠가 말했듯이, "의학은 불확실성의 과학이며 확률의 예술이다." "불확실성의 과학"은 IBM의 Watson for Oncology와 같은 DL-DSS에 대한 관심을 불러일으켰고, 그러한 시스템을 의학에 적용하는 것을 매우 매력적으로 만드는 것입니다. 임상의는 진단이 확실치 않다는 사실을 감안하고 궁극적으로 받아들여야 하며, 이것이 그들이 감별 진단을 합성하는 이유이다. DL-DSS의 계산된 확률은 실제로 권장 사항이 나타나는 방법의 차이를 이해하려면 전문 임상의의 직관과 일치해야 한다. 환자가 골수이형성증후군을 가지고 있다고 [76% 확신한다]는 것은 무엇을 의미하는가? 우리는 다년간의 경험을 통해 습득한 전문 임상의의 직관이 그러한 정확한 신뢰 측정을 생성할 수 있다고 가정하지 않는다.
Perhaps more importantly, the clinical adoption of AI may be a reflection of how intrinsic uncertainty is to medicine. As Sir William Osler once said, “Medicine is the science of uncertainty and the art of probability.”43 The “science of uncertainty” is what has driven interest in DL-DSS, such as IBM’s Watson for Oncology, and is what makes the application of such systems to medicine so appealing. Clinicians must reckon with and ultimately accept the fact that no diagnosis is certain, which is why they synthesize differential diagnoses. The calculated probabilities of DL-DSS must, in practice, be reconciled with the intuition of expert clinicians if we are to understand differences in how recommendations emerge. What does it mean to be 76% confident that a patient has myelodysplastic syndrome? We do not assume the intuition of expert clinicians, acquired over many years of experience, could generate such precise measurements of confidence.

설상가상으로, 치료 계획을 수립하는 데 내재된 복잡성은 진단에 도달하는 것보다 훨씬 더 클 수 있습니다. [진단의사결정] 지원시스템은 정확성을 위해 [Gold standard로 검증]할 수 있지만, [치료계획]에는 [Gold standard]가 없을 수 있다. 치료 결정은 진단뿐만 아니라 환자의 다른 생물의학적 동반성, 생체의학적 사회적 요인, 환자 선호도 및 제공할 수 있는 치료법에 대한 시스템 수준 제약에 의해 주도된다. 특히 정답이 둘 이상 있는 것처럼 보일 때에는, 경험적 접근이 지배적이다.  즉, 각각의 전문가들은 [효과는 유사하지만 현저하게 다른 치료 계획]을 생성할 수 있다. 종양학과 같은 특정 의료 분야에서는 전문가 간의 의견 불일치를 활용하여 모범 사례를 육성할 수 있다. 학술 암 센터에서는 다양한 분야(예: 의료 종양학, 외과 종양학, 방사선학, 방사선 종양학 및 병리학)의 전문가들로 구성된 "종양 보드tumor board"가 만나 가장 어려운 사례를 논의한다. 한 연구는 다학제 종양 위원회에 대한 회부가 연구된 유방암 환자의 52%에서 외과적 관리에 대한 권고사항의 변화로 이어진다는 것을 발견했다. 그러나 여러 치료 옵션이 유사하게 효과적일 때, DL-DSS는 어떻게 최선의 치료 과정이 무엇인지 평가할 수 있을까? 이러한 시스템은 다학제 전문가 위원회의 비인간적인 구성원으로 간주되어야 하는가? 이 분야와 다른 분야에서, AI는 새로운 기회를 창출하고 새로운 윤리적, 실질적인 도전을 제기할 것이다.

To make matters more challenging, the complexity inherent in creating a treatment plan can be even greater than that of arriving at a diagnosis. While diagnostic decision support systems can be verified with gold standards for accuracy, there may not be a gold standard for a therapeutic plan.38 Treatment decisions are driven not only by a diagnosis but also by a patient’s other biomedical comorbidities, biopsychosocial factors, patient preferences, and systems-level constraints about what therapies can be offered. Empirical approaches dominate, especially when there appears to be more than one right answer.44 Thus, experts may independently generate similarly effective but markedly different treatment plans. In certain areas of medicine, such as oncology, a disagreement between experts may be leveraged to foster best practices. In academic cancer centers, a “tumor board,” composed of a range of experts in various disciplines (e.g., medical oncology, surgical oncology, radiology, radiation oncology, and pathology), meets to discuss their most challenging cases. One study found that a referral to a multidisciplinary tumor board led to changes in recommendations for surgical management in 52% of breast cancer patients studied.45 But when multiple treatment options are similarly effective, how can a DL-DSS evaluate what the best course of therapy is? Should these systems be considered a nonhuman member of a multidisciplinary board of experts? In this area, and others, AI will create new opportunities and raise new ethical and practical challenges.

임상의가 DL-DSS와 함께 의술을 시행하려면 불확실성에 대한 어려운 인식론적 질문을 던져야 하며, 기술이 발전함에 따라 계속 그렇게 해야 한다. 또한 이러한 기술(장점과 한계를 포함)에 대한 도입은 향후 의료 훈련과 지속적인 의료 교육의 우선적인 초점이 되어야 한다. 이러한 [주제들의 많은 측면들]이 다루어져야 한다.

  • 훈련생들은 '현명한 선택Choosing Wisely'과 같은 캠페인이 전달하고자 했던 교훈인 [과도한 진단 테스트의 어리석음과 위험]에 대해 배울 수 있었다.
  • 훈련생은 AI 알고리듬에서 일반적으로 사용되는 베이지안 통계에 대한 더 깊은 이해를 얻는 것으로도 이익을 얻을 수 있다. 베이지안 접근 방식은 빈도주의 통계(역사적으로 의과대학에서 가르쳐온 방식으로서, 발견을 통계적으로 유의하거나 그렇지 않은 것으로 보는 방법)의 사용에서 벗어나 정보가 축적됨에 따라 업데이트될 수 있는 확률 분포로 결론을 전환한다.

If clinicians are to practice medicine alongside a DL-DSS, we must ask difficult epistemological questions about uncertainty—and continuously do so as technology evolves. Further, introduction to these technologies—including their benefits and limitations—should be a prioritized focus of future medical training and continuing medical education. A number of aspects of these topics should be tackled.

  • Trainees could be taught about the folly and dangers of excessive diagnostic testing, a lesson which campaigns such as Choosing Wisely have sought to communicate.46 
  • Trainees may also benefit from acquiring a deeper understanding of Bayesian statistics, which are commonly used in AI algorithms. Bayesian approaches shift conclusions away from the use of frequentist statistics—methods that have historically been taught in medical schools and which view findings as either statistically significant or not—and toward probability distributions, which can be updated as information accrues.

훈련생은 의학 문헌에서 [관찰 및 실험 연구를 비판]하는 것처럼 [AI 시스템에 대한 편견을 비판]할 수 있어야 한다. 알고리즘이 수백만 명의 환자의 치료에 영향을 미칠 수 있기 때문에 이러한 비판적 입장은 특히 중요하다. 이러한 편향은 복잡한 요구를 가진 환자를 식별하기 위해 널리 사용되는 상업적 알고리듬이 의료 비용을 필요의 대용물로 사용하여 흑인 환자에 대해 편향된 것으로 밝혀진 최근 연구에서 특히 입증되었다. 불확실성과 관련된 임상 추론의 역량도 평가에 통합되어야 한다. Cooke와 Le가 지적할 수 있듯이, 불확실성을 의료 훈련생의 임상 추론 평가에 통합하는 것은 아직 초기 단계에 있다. 그들은 불확실성을 수용하고 하나 이상의 정답이 존재한다는 것을 인정하는 것이 함께 진행되며 훈련생 평가에 이러한 역량을 포함할 것을 권고한다고 결론짓는다. 그것이 어떻게 행해지든, 만약 임상의가 진단과 치료 선택에 도움을 주기 위해 AI를 사용한다면, 임상의와 보건 정책 입안자들은 인간과 알고리즘의 불확실성을 의학의 초석으로 받아들이는 것이 무엇을 의미하는지 받아들여야 한다.

Trainees must be able to critique AI systems for bias, much like they critique observational and experimental studies in the medical literature.47 This critical stance is especially important because algorithms can affect the care of millions of patients. This bias was notably demonstrated in recent work where a widely used commercial algorithm to identify patients with complex needs was found to use health costs as a proxy for needs, biasing against Black patients.48 Competencies in clinical reasoning relevant to uncertainty must also be incorporated into assessments. As Cooke and Lemay point out, integrating uncertainty into the evaluation of clinical reasoning for medical trainees is still in its infancy.44 They conclude that embracing uncertainty and acknowledging the presence of more than one right answer go hand in hand and recommend including these competencies in trainee assessments. Regardless of how it is done, if clinicians are to use AI to aid in diagnosis and therapeutic selection, clinicians and health policymakers must come to terms with what it means to accept human and algorithmic uncertainty as a cornerstone of medicine.

IBM의 왓슨 포 온콜로지(Watson for Oncology)의 약속과 가치를 믿든 믿지 않든, 이 시스템에 대한 경험은 진단 또는 치료 보조 장치로서의 AI의 역할이 다양한 맥락에서 면밀히 조사되고 평가될 필요가 있음을 가슴 아프게 상기시켜준다. 다른 많은 임상 의사 결정 지원 도구와 마찬가지로, AI는 통계와 확률의 발판 위에 구축된다. 최근의 한 연구는 설문 조사에 참여한 의사들 중 2/3가 검사와 확률에 대한 이해에 자신이 없다고 스스로 보고했다고 밝혔다. 통계에 대한 AI 시스템의 의존도를 복잡하게 만드는 것은 많은 현대 딥 러닝 기술이 블랙박스라는 AI 전문가들의 경고다. 이러한 알고리즘을 만든 사람조차도 자신의 행동을 완전히 설명할 수 없다. 임상 의사, 환자, 지급인 및 규제 기관은 AI 프로세스를 완전히 이해하지 못하는 것에 대해 당연히 우려할 수 있다.  만약 AI의 권고가 인간 전문가들이 이해할 수 없다면 진단 및 치료 과정에서 어떤 윤리적 역할을 할 수 있을까?

Whether or not one believes in the promise and value of IBM’s Watson for Oncology, experiences with this system serve as a poignant reminder that AI’s role as a diagnostic or therapeutic aid needs to be scrutinized and evaluated in a multitude of contexts. Like many other clinical decision support tools, AI is built on a scaffolding of statistics and probability. A recent study revealed that two-thirds of doctors surveyed self-reported as not being confident in their understanding of tests and probability.49,50 Complicating the reliance of AI systems on statistics is a caution from AI experts that many modern deep learning techniques are black boxes: Even the creators of these algorithms cannot fully explain their behavior.19 Clinicians, patients, payers, and regulators may be understandably concerned by an inability to fully understand AI processes: What ethical role can AI have in diagnostic and therapeutic processes if its recommendations are inscrutable to human experts?

궁극적으로, Watson for Oncology는 의료 애플리케이션에 AI를 적용하는 데 관심이 있는 사람들이 진단 및 치료 불확실성으로 인해 기대를 완화하도록 돕는 의미 있는 사례 연구 역할을 한다. 인간은 AI 알고리즘의 내부 작동을 완전히 이해할 수 없을 수 있으며, 이러한 알고리즘이 불완전성과 편견에 물들 수 있는 방법은 셀 수 없이 많다. 따라서 책임 있는 임상의는 이러한 편견을 인정하도록 노력해야 한다. 규제 기관, 동료 및 환자와 함께 공개적으로 논의해야 한다. 그리고 전문가와 마케팅 기관의 메시지가 그들의 실천에 기초하는 히포크라테스 원칙을 훼손하지 않도록 보장한다.

Ultimately, Watson for Oncology serves as a meaningful case study to help those interested in applying AI to medical applications temper their expectations because of diagnostic and therapeutic uncertainty. Humans may not be able to fully comprehend the inner workings of AI algorithms, and there are countless ways in which these algorithms can be imbued with imperfections and biases. Responsible clinicians must therefore endeavor to acknowledge these biases; openly discuss them with regulators, colleagues, and patients alike; and ensure that the messages of pundits and marketing agencies do not compromise the Hippocratic principles underlying their practice.

 

 


Acad Med. 2021 Jan 1;96(1):31-36. doi: 10.1097/ACM.0000000000003707.

Artificial Intelligence and Clinical Decision Making: The New Nature of Medical Uncertainty

Affiliations collapse

Affiliations

1V. Harish is a fourth-year MD-PhD student, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada; ORCID: https://orcid.org/0000-0001-6364-2439.

2F. Morgado is a fourth-year MD-PhD student, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada; ORCID: https://orcid.org/0000-0003-3000-9455.

3A.D. Stern is associate professor, Technology and Operations Management Unit, Harvard Business School, Harvard University, Cambridge, Massachusetts; ORCID: https://orcid.org/0000-0002-3586-1041.

4S. Das is associate professor, Department of Surgery, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada; ORCID: https://orcid.org/0000-0002-2146-4168.

PMID: 32852320

DOI: 10.1097/ACM.0000000000003707

Abstract

Estimates in a 1989 study indicated that physicians in the United States were unable to reach a diagnosis that accounted for their patient's symptoms in up to 90% of outpatient patient encounters. Many proponents of artificial intelligence (AI) see the current process of moving from clinical data gathering to medical diagnosis as being limited by human analytic capability and expect AI to be a valuable tool to refine this process. The use of AI fundamentally calls into question the extent to which uncertainty in medical decision making is tolerated. Uncertainty is perceived by some as fundamentally undesirable and thus, for them, optimal decision making should be based on minimizing uncertainty. However, uncertainty cannot be reduced to zero; thus, relative uncertainty can be used as a metric to weigh the likelihood of various diagnoses being correct and the appropriateness of treatments. Here, the authors make the argument, using as examples the experiences of 2 AI systems, IBM Watson on Jeopardy and Watson for Oncology, that medical decision making based on relative uncertainty provides a better lens for understanding the application of AI to medicine than one that minimizes uncertainty. This approach to uncertainty has significant implications for how health care leaders consider the benefits and trade-offs of AI-assisted and AI-driven decision tools and ultimately integrate AI into medical practice.

+ Recent posts