
인공지능(AI)의 발전 속도는 무척 빠르다. 특히 방대한 데이터를 탐색하고 분석하며, 핵심을 정리하는 데 있어서는 AI 도구를 사용하는 편이 훨씬 효율적·효과적이다. 의료 분야에서도 의사들의 진단 및 결정에 AI를 활용함으로써 더 나은 결과를 얻을 수 있다는 연구 결과가 나왔다.
AI의 ‘진단 능력’ 테스트
미국 스탠포드 대학병원의 조교수인 조나단 H. 첸 박사는 자신의 연구팀과 함께 AI의 의료 활용성에 관한 연구를 진행 중이다. 대규모 언어 모델(LLM)이 의료적 진단이나 처방이 필요한 상황에 효과적으로 답할 수 있는지에 대한 데이터를 축적하고 있다.
일반적으로 AI는 방대한 자료나 데이터 안에서 현재 상황에 필요한 내용을 찾아내는 등의 작업에 매우 효율적이다. 이런 종류의 작업에서는 전문의보다 우수한 성과를 내놓을 가능성이 매우 높다. 하지만 이것만으로는 충분하지 않다는 것을 대부분의 전문가들이 알고 있다.
첸 박사는 특히 양자택일이 아닌 상황, 답이 명확하게 정해져 있지 않은 상황에서도 AI가 합리적인 답을 내놓을 수 있을지에 주목하고 있다. 예를 들어, ‘혈액 응고 방지제를 처방받아 복용 중인 환자는 수술 전 언제부터 언제까지 복용을 중단해야 하는가?’ 또는 ‘어떤 약물로 인해 부작용을 겪은 환자는 치료 방식을 어떻게 바꿔야 하는가?’와 같이, 전문의의 주관적 판단이 필요한 질문들이다.
첸 박사는 “이 연구는 우리로 하여금 AI를 어떻게 활용할 것인지에 대해 비판적으로 생각할 수 있게 한다”라며 “인간은 무엇에 능숙하고, 컴퓨터는 무엇에 능숙한지를 반복해서 묻고 그에 대한 답을 찾아가는 과정이라고 생각한다”라는 의견을 내놓았다. 이를 통해 기술을 어디에 사용할지, 무엇과 결합하여 응용할지, 어떤 작업을 AI로 대체할지를 사려 깊게 생각할 수 있을 거라는 입장이다.
AI가 ‘의학적 결정’을 내릴 수 있을까?
첸 박사의 연구팀은 지난 2024년 10월, 질병 진단에서 AI 챗봇이 어느 정도의 성과를 보이는지를 테스트했다. 그 결과 챗봇이 때로는 의사보다 정확도가 높을 수 있다는 결과를 얻어, 그 내용을 「JAMA 네트워크 오픈」에 게재한 바 있다.
이번 연구는 보다 깊게 들어갔다. ‘임상 관리 및 추론’의 영역에는 고려해야 할 변수가 많고, 공식처럼 정해진 답이 없는 경우가 많다. 이런 상황에서 AI의 진단 능력이 얼마나 효과적일지를 평가하고자 한 것이다.
연구팀에 소속된 스탠포드 임상우수연구센터 박사 후 연구원 에단 고는 이 작업을 ‘스마트폰의 지도 앱을 사용하는 것’과 비교해 설명했다. 지도 앱에서 네비게이션 기능을 사용하면 목표한 지점에 도달하기 위한 여러 가지 방법을 보여준다. 여러 변수를 고려했을 때 그중 어떤 경로가 가장 좋은 선택일지를 최종 결정하는 것은 사용자의 몫이다. 이것이 임상 관리 및 추론의 영역이다.
연구팀은 92명의 의사들을 동원해, AI의 지원을 받는 A그룹 46명, 그리고 인터넷 검색 및 의료 참고문헌만을 사용하는 B그룹 46명으로 나눴다. 그리고 이들의 진단 및 처방 성과를 AI와 비교하기 위해 익명 처리된 환자 사례 5개를 선택해 제공했다. 과제 자체가 주관성이 필요한 영역이므로, 전문의 인증을 받은 의사 그룹의 자문을 받아 판단 기준을 만들었다.
평가 결과, AI의 진단은 B그룹보다 확연히 나은 성과를 보였다. AI의 지원을 받은 A그룹은 AI 스스로 진단한 것과 비슷한 성과를 보였다.
‘AI 의사’의 가능성?
환자에게 가장 적합한 치료법을 결정하는 데는 무수한 변수가 따른다. 침습적 수술이 가장 효과적이더라도 환자가 수술이 어려운 상황일 수도 있고, 기존 증상에 대해 최선의 조치가 돼 있지 않을 수도 있다. 모든 의학적 결정에는 이러한 ‘맥락’이 함께 고려돼야 한다고 첸 박사는 말한다.
그는 앞으로 ‘AI를 사용했을 때 의사가 환자를 더 사려 깊게 살필 수 있는지’, 또는 ‘AI를 사용함으로써 의사가 미처 생각하지 못한 지점을 발견해주는지’ 등에 의사들을 보완해주는 것에 초점을 맞춰야 한다고 이야기했다.
실제로 AI는 데이터를 ‘편견 없이’ 살핀다. 이는 언뜻 좋은 의미일 수도 있지만, 바꿔 말하면 ‘좋은 정보’와 ‘나쁜 정보’를 구분하지 못할 수도 있다는 의미도 된다. 첸 박사는 “서로 모순이 되는 정보 사이에서 무엇이 옳은지, 무엇이 더 믿을만한지를 분별하도록 하는 것이 앞으로의 숙제가 될 것”이라고 이야기했다. 한편, 이번 연구 결과는 「네이처 메디슨(Nature Medicine)」에 게재됐다.
-
질병들 연관성 알려주는 AI 도구 개발
질병의 발생 원인을 추적해 다른 질병의 발생 위험성까지 사전에 체크할 수 있는 AI 기술이 개발됐다. -
생성형 AI 의료기기 가이드라인, 세계 최초로 공개
식약처가 세계 최초로 생성형 AI 의료기기 개발을 적극 지원하기 위한 허가·심사 가이드라인을 선보였다. -
인공지능 공감 능력, 사람보다 뛰어나다?
인공지능의 공감능력이 인간보다 뛰어날 수 있다는 연구 결과가 제기됐다. 다만, 전문 상담 등 실제 현장에서 인간을 대체하기에는 아직 부족하다는 의견이 지배적이다. -
우울증 진단 보조 인공지능 소프트웨어 최초 허가
우울증 진단을 보조하는 인공지능 의료기기가 국내 최초 식약처 허가를 받았다. 이른바 ‘우울증 확률을 표시해주는 인공지능 기반 소프트웨어(제품명 : ACRYL-D01)’다. -
질병 원인 유전자 찾아내는 AI 시스템 개발
부산대학교에서 질병의 원인이자 치료 목표가 되는 유전자를 예측해낼 수 있는 시스템을 개발했다. 질병의 근본적 원인을 제거하는 '정밀 의료'의 실현 가능성이 더 높아졌다. -
챗GPT의 가능성, “심리치료 개선에 기여할 수 있다”
인공지능은 인간의 감정을 공감하고 이해할 수 없을까? 공감과 이해를 어떻게 정의하는지에 따라 다를 것이다. 하지만 적어도, '심리치료'에 인공지능이 기여할 수 있는 부분은 있어 보인다. -
흘리는 땀이 적어도 분석 가능한 광학 바이오센서 패치
성균관대학교 화학공학부 방창현 교수와 조수연 교수는 공동 연구팀을 꾸려 매우 미세한 양의 땀까지 수집, 측정, 분석할 수 있는 광학 기반의 점착 바이오센서 패치를 개발했다. -
생성형 AI 진단 능력, 일반의와 비슷한 수준
최신 생성형 AI 모델의 경우, 전문의가 아닌 일반의와 거의 비슷한 정확도를 보이기도 했다. GPT-4, GPT-4o, Llama 3 70B, Gemini 1.0 Pro, Gemini 1.5 Pro, Claude 3 등 일부 모델은 일반의보다 약간 더 높은 정확도를 보였다.
