주관주의자 귀납적 패러다임을 향한 자연어처리의 진화(Med Educ, 2023)
Evolving natural language processing towards a subjectivist inductive paradigm
Brian C. Gin

 

 

인공지능(AI)이 데이터 중심 사회에서 점점 더 큰 입지를 차지하면서 언어에 초점을 맞춘 파생 기술인 자연어 처리(NLP)가 보건 전문직 교육 연구(HPER)에 진출했습니다.1 NLP는 텍스트와 문서의 질적 분석을 위한 획기적인 검색 및 자동화 도구를 약속합니다. 그러나 탄탄한 이론적, 철학적 토대가 없다면 NLP를 통한 질적 결과는 불투명하거나 최악의 경우 오해의 소지가 있을 수 있습니다. 이번 호에서 Cleland 등은 HPER에서 전통적인(즉, NLP가 아닌) 질적 문서 분석(DA)의 실행에서 유사한 이론적 결함을 지적하고 그러한 DA 연구의 신뢰성을 증진하기 위한 표준을 제안합니다.2 이들의 접근 방식은 실제로 NLP를 사용한 연구를 강화하기 위해 확장될 수 있습니다. 
As artificial intelligence (AI) takes an ever-increasing foothold in our data-driven society, its language-focused derivative, natural language processing (NLP), has made headway into health professions education research (HPER).1 NLP promises groundbreaking discovery and automation tools for the qualitative analysis of text and documents. However, without sound theoretical and philosophical foundations, qualitative results facilitated by NLP stand to be opaque, or at worst, misleading. In this issue, Cleland et al note a similar deficiency of theory in the practice of traditional (i.e. non-NLP) qualitative document analysis (DA) in HPER and propose standards to promote the trustworthiness of such DA research.2 Their approach could indeed be extended to strengthen studies using NLP.

탄탄한 이론적, 철학적 토대가 없다면 NLP를 통해 얻은 질적 결과는 불투명하거나 최악의 경우 오해의 소지가 있을 수 있습니다.
Without sound theoretical and philosophical foundations, qualitative results facilitated by NLP stand to be opaque, or at worst, misleading.

HPER에서 빠르게 증가하는 연구 모음은 본질적으로 인간 코더의 범위를 대규모 데이터세트로 확장하기 위한 '자동화된 코딩 도우미'로 NLP를 사용했습니다. 이러한 연구들은 인간 연구자의 '훈련'에 의존하는 NLP '분류기' 알고리즘을 활용했습니다. 예를 들어,

  • 부스(Booth) 등은 NLP를 활용하여 ACGME 마일스톤 하위 역량별로 내러티브 평가를 자동으로 분류하고, 인간 코더가 데이터의 하위 집합(즉, '훈련 데이터 세트')에 붙인 레이블을 모방하도록 NLP 알고리즘을 효과적으로 훈련시켰습니다. 3
  • 내러티브 평가에서 성별 편향 가능성을 찾기 위해 Andrews 등은 인간 연구자가 코드북을 개발하는 데 사용하는 작은 조각으로 내러티브를 표현하여 내러티브의 정서(즉, 긍정적 또는 부정적 정서적 가치)를 결정하는 NLP 알고리즘을 만들었고, 이 알고리즘은 전체 데이터 세트에 자동으로 적용되었습니다.4
  • 비슷한 질문을 탐구하면서 Sarraf 등은 상업적으로 훈련된 NLP 알고리즘을 사용하여 추천서의 정서를 특성화했습니다.5

이러한 사례와 그 밖의 많은 최근 HPER의 NLP 분류 사례는 철학적 입장과 이론적 가정에 대한 추가 검토를 유도하는 'NLP 지원 코딩' 방법론의 새로운 패턴을 가리킵니다. 
A rapidly growing collection of studies in HPER has used NLP, in essence, as an ‘automated coding assistant’ to extend the reach of human coders to large datasets. These studies utilised NLP ‘classifier’ algorithms that rely on some form of ‘training’ by human researchers. For example,

  • Booth et al utilised NLP to automatically classify narrative evaluations by ACGME milestone subcompetency, effectively training their NLP algorithm to mimic the labels placed by human coders on a subset of the data (i.e. a ‘training dataset’).3 
  • Searching for possible gender bias in narrative evaluations, Andrews et al created an NLP algorithm to determine the sentiment (i.e. positive or negative emotional valence) of narratives by representing them in bite-sized pieces that human researchers used to develop a codebook, which the algorithm then automatically applied to the entire dataset.4 
  • Exploring a similar question, Sarraf et al employed commercially trained NLP algorithms to characterise the sentiment of letters of recommendation.5 

These and many other recent examples of NLP classification in HPER point to an emerging pattern of ‘NLP-assisted coding’ methodologies that invite further examination of their philosophical stances and theoretical assumptions.

Cleland의 DA 연구 결과와 유사하게, 연구자들이 NLP 지원 코딩을 사용하는 기본 연구 패러다임은 종종 불분명합니다. 성찰적 주제 분석, 근거 이론, 질적 내용 분석과 같은 유비쿼터스 질적 방법론은 모두 데이터 탐색, 코드 개발, 주제 종합 사이에 어떤 형태의 반복에 의존합니다.6, 7 그러나 NLP 지원 코딩을 사용하는 경우, 반복적인 탐구 과정이 아닌 전체 데이터 세트에 고정된 코드북을 적용하는 방식으로 배포되는 경우가 많습니다. 초기 연구자가 수행한 훈련 데이터 세트의 코딩은 반복적인 귀납적 접근 방식을 통해 이루어질 수 있지만, 더 큰 전체 데이터 세트에 NLP를 일회성으로 적용하면 코드 및 테마 형성에 대한 해당 데이터의 추가 기여를 놓치게 됩니다. 따라서 현재 HPER에서 NLP를 주로 구현하는 방식은 귀납적 접근 방식이 아닌 연역적 접근 방식에 속하는 것으로 보이며, 데이터를 사용하여 가설이나 이론을 생성하기보다는 정적 학습 데이터 세트에 코드화된 가설을 데이터에 적용하는 방식입니다. 
Similar to Cleland's findings in DA, the underlying research paradigms within which researchers employ NLP-assisted coding are often unclear. Ubiquitous qualitative methodologies such as reflexive thematic analysis, grounded theory and qualitative content analysis all rely on some form of iteration between exploring data, developing codes and synthesising themes.6, 7 When NLP-assisted coding is used, however, it is often deployed by applying a fixed codebook to the entire dataset, rather than within an iterative process of inquiry. While the initial researcher-performed coding of the training dataset may occur via an iterative inductive approach, the use of NLP as a one-time application to the larger complete dataset will miss additional contributions of those data to the formation of codes and themes. Thus, the predominant implementation of NLP in HPER currently appears to fall under a deductive rather than inductive approach, applying a hypothesis—codified in a static training dataset—to data rather than using the data to generate a hypothesis or theory.

현재 HPER에서 주로 구현되는 NLP는 귀납적 접근 방식이 아닌 연역적 접근 방식에 속하는 것으로 보이며, 데이터를 사용하여 가설이나 이론을 생성하기보다는 정적 훈련 데이터 세트에 코드화된 가설을 데이터에 적용합니다.
The predominant implementation of NLP in HPER currently appears to fall under a deductive rather than inductive approach, applying a hypothesis—codified in a static training dataset—to data rather than using the data to generate a hypothesis or theory.

그렇다고 NLP가 연역적 탐구에만 사용되거나 (포스트)실증주의 패러다임 내에서만 사용 가능하다는 것은 아닙니다. 귀납적 정성적 접근 방식을 지원할 수 있는 NLP의 잠재력은 존재하지만, 현재 기술적으로 까다롭고 HPE 내에서 상대적으로 미개척 분야로 남아 있습니다. 한 가지 접근 방식은 '비지도' 주제 모델링 전략으로, NLP 알고리즘이 코드화되지 않은 데이터 세트 내에서 의미 패턴을 자동으로 검색하여 새로운 코드를 개발하는 것입니다.8 '연역적'인 것처럼 보이지만 완전히 자동화된 비지도 접근 방식은 알고리즘과 인간 연구자 간의 반복적인 협업이 수반되지 않는 한 이상적이라고 할 수 없습니다. 보다 유망한 방향은 능동형 머신 러닝과 연구자 지원 주제 모델링과 같이 연구자가 수행하는 코딩과 NLP 자동 코딩을 혼합하는 것으로 보입니다. 인간과 기계 간의 미래 협업은 알고리즘이 학습하고 의사 결정을 내리는 방식에 대한 이해, 즉 '설명 가능한 AI'의 진전에 달려 있습니다. 최신 자연어 처리 알고리즘이 텍스트 의미를 표현하는 AI의 능력을 확장함에 따라 복잡성이 증가하면서 의사 결정 과정이 모호해지고 있습니다. 이러한 불투명성은 소위 '블랙박스' 현상으로, AI 알고리즘이 복잡한 행동을 모방하도록 훈련할 수는 있지만 그렇게 학습하는 방법에 대한 인사이트는 거의 드러나지 않습니다. 인간의 마음도 마찬가지이지만, 효과적인 인간과 기계의 협업은 최종 분류에 대한 지식만 얻는 것이 아니라 NLP 알고리즘이 내부적으로 의미적 의미를 어떻게 표현하는지를 이해하는 데 달려 있습니다.9 
This is not to say that NLP can only be used for deductive inquiry or only within a (post-)positivist paradigm. The potential for NLP to assist an inductive qualitative approach exists, but it currently appears technically challenging and remains relatively untapped within HPE. One approach involves an ‘unsupervised’ topic modelling strategy whereby an NLP algorithm automatically searches for patterns of meaning within an uncoded dataset to develop de novo codes.8 Although seemingly ‘deductive’, a completely automated unsupervised approach is not ideal unless it also involves iterative collaboration between the algorithm and human researchers. More promising directions appear to involve hybrids between researcher-performed and NLP-automated coding, such as active machine learning and researcher-assisted topic modelling. Future collaboration between human and machine also depends on making progress in ‘explainable AI’—the understanding of how algorithms learn and make decisions. As newer NLP algorithms expand AI's ability to represent textual meaning, their increasing complexity obfuscates their decision-making process. This opacity is the so-called ‘black box’ phenomenon whereby an AI algorithm can be trained to mimic complex behaviour but reveals little insight into how it learned to do so. While the same can be said of the human mind, effective human–machine collaboration will depend on understanding how NLP algorithms represent semantic meaning internally, rather than gaining knowledge only of the final classifications they make.9

효과적인 인간과 기계의 협업은 NLP 알고리즘이 내부적으로 의미적 의미를 표현하는 방식을 이해하는 데 달려 있습니다.
Effective human-machine collaboration will depend on understanding how NLP algorithms represent semantic meaning internally.

마지막으로, NLP를 이용한 정성적 문서 분석의 성찰성reflexivity 문제가 있습니다. 반사적 정성적 접근 방식은 의미를 만드는 데 있어 연구자의 기여를 인정하고 존중하지만, 현재의 NLP 알고리즘은 이러한 자기 인식이 부족합니다. 학습된 NLP 알고리즘은 학습 데이터를 코딩한 연구자의 반사성을 이어받을 수 있지만, 의도하지 않은 잠재적으로 원치 않는 코딩 경향이나 편견을 분석에 도입할 수도 있습니다. 또한 NLP 알고리즘은 종종 '전이 지식'(예: 별도의 말뭉치에 대한 학습을 통해 얻은 언어에 대한 기계의 이해)으로 보완되는데, 이는 외부 학습 데이터의 편견을 항상 그대로 전달할 수 있습니다. Sarraf 등이 수행한 것처럼 상업적으로 사전 학습된 NLP 알고리즘을 사용하는 경우, 이러한 편향(및 관련 반사성)은 연구자 자신의 반사성과는 완전히 외부에 있습니다. 이러한 알고리즘 편향을 식별하고 완화하는 것은 NLP 내에서 활발히 연구되고 있는 분야입니다. 그러나 '편향되지 않은' NLP 알고리즘의 이상은 필연적으로 객관주의에 귀를 기울일 수밖에 없으며 주관주의적 관점에서는 달성할 수도 없고 원하지도 않을 수 있습니다. 따라서 NLP 알고리즘의 '반사성'은 잘 정의되어 있지 않으며, 알고리즘이 분석에서 중요한 역할을 하는 경우 연구에 비판적 노출을 남길 수 있습니다. 질적 연구의 반사성에 대한 NLP의 기여도를 정의, 평가 및 조정하는 방법을 이해하는 것은 시급히 해결해야 할 과제입니다.10
Finally, there is the issue of reflexivity in NLP-assisted qualitative document analysis. While reflexive qualitative approaches have both acknowledged and enshrined researchers' contributions to making meaning, current NLP algorithms lack such self-awareness. While a trained NLP algorithm may carry forward the reflexivity of the researchers who coded the training data, it may also introduce unintended and potentially unwelcome coding tendencies or biases into the analysis. Further, NLP algorithms are often supplemented by ‘transfer knowledge’—for example, machine understanding of language afforded by training on a separate corpus—that invariably carries forward biases from that external training data. In the case of using a commercially pre-trained NLP algorithm as was done by Sarraf et al, such bias (and any associated reflexivity) is completely external to the researchers' own reflexivity. Identifying and mitigating such algorithmic biases is an active area of research within NLP. However, the ideal of ‘unbiased’ NLP algorithms inevitably hearkens to objectivism and may neither be achievable nor desired from a subjectivist perspective. As such, the ‘reflexivity’ of an NLP algorithm is not well defined and may leave a study critically exposed if the algorithm plays a significant role in the analysis. Understanding how to define, assess and tune the contribution of NLP to a qualitative study's reflexivity needs to be urgently addressed.10

질적 연구의 반사성에 대한 NLP의 기여도를 정의, 평가 및 조정하는 방법을 이해하는 것은 시급히 해결해야 할 과제입니다.
Understanding how to define, assess and tune the contribution of NLP to a qualitative study's reflexivity needs to be urgently addressed.

특히 임상 학습 환경을 사회적으로 구성된 것으로 간주할 때, 연역적 (후기) 실증주의 접근법을 지향하는 NLP 지원 DA 연구의 암묵적 경향은 많은 HPER 연구자들이 DA를 통해 답을 구하고자 하는 주관주의적 연구 질문과 상반될 수 있습니다. NLP를 주관주의 귀납적 패러다임으로 전환하는 것은 연구자와 AI '어시스턴트' 모두를 협력적이고 투명한 탐구 프로세스로 초대하는 새로운 NLP 전략을 개발하는 데 달려 있습니다. 한편, Cleland 등이 개발한 CARDA 체크리스트를 사용하면 AI 기술의 클라우드가 빠르게 진화하는 동안에도 NLP 지원 DA 연구가 이론적, 철학적 토대 위에 확고하게 자리 잡을 수 있습니다.
The implicit tendency of NLP-assisted DA studies towards a deductive (post-)positivist approach may stand in contrast to subjectivist research questions that many HPER researchers seek to answer via DA, particularly when considering the clinical learning environment as socially constructed. Moving NLP towards a subjectivist inductive paradigm will depend upon developing new NLP strategies that invite both researchers and their AI ‘assistants’ into a collaborative and transparent process of inquiry. In the meantime, use of the CARDA checklist by Cleland et al can keep NLP-assisted DA studies firmly situated on their theoretical and philosophical underpinnings while the clouds of AI technology rapidly evolve.

NLP를 주관주의 귀납적 패러다임으로 전환하는 것은 연구자와 AI '어시스턴트' 모두를 협력적이고 투명한 탐구 과정으로 초대하는 새로운 NLP 전략을 개발하는 데 달려 있습니다.
Moving NLP towards a subjectivist inductive paradigm will depend upon developing new NLP strategies that invite both researchers and their AI ‘assistants’ into a collaborative and transparent process of inquiry.


Med Educ. 2023 May;57(5):384-387. doi: 10.1111/medu.15024. Epub 2023 Feb 15.

Evolving natural language processing towards a subjectivist inductive paradigm

Affiliations collapse

1Department of Pediatrics, University of California San Francisco, San Francisco, California, USA.

PMID: 36739578

DOI: 10.1111/medu.15024

+ Recent posts