
생성형 AI는 의학 분야에서도 많은 주목을 받고 있다. 생성형 AI를 어디까지 활용할 수 있는지를 두고 다양한 연구가 이루어졌다. 그중에는 서로 다른 관점으로 첨예하게 대립하는 주제도 있다. 대표적인 것이 ‘생성형 AI 진단’일 것이다. 의료 현장에서 생성형 AI 진단 능력과 AI 활용 가능성을 분석하고자 진행한 메타 연구 결과를 소개한다.
생성형 AI 진단 능력 메타 연구
일본의 오사카 수도대학 의학연구과에서는 ‘AI가 실제 의료 환경에서 얼마나 활용될 수 있는지’, 그리고 ‘의료 전문가의 역량과 비교했을 때 어떤 차이가 있는지’ 등을 파악하기 위한 메타 연구를 실시했다.
연구팀은 2018년 6월부터 2024년 6월까지 6년간 생성형 AI 진단 능력을 주제로 발표된 논문들을 수집·분석했다. 연구팀에 따르면 총 18,371개 연구를 확인했으며, 그중 10,357개가 서로 중복된 연구였기에 최종적으로 83편의 연구 논문을 대상으로 메타 분석을 실시했다.
연구팀이 분석한 논문들에서 가장 빈번하게 다룬 대규모 언어 모델(LLM)은 단연 ‘챗GPT’였으며 그중 GPT-4 모델과 GPT-3.5 모델이 평가 대상으로 가장 흔하게 다뤄졌다. 이 연구결과는 <네이처(Nature)>의 디지털 헬스케어 분야 파트너 저널인 <NPJ 디지털 메디신(NPJ Digital Medicine)>에 게재됐다.
생성형 AI 진단, 일반의와 비슷한 수준
메타 연구에 기반한 평가 결과, 전문의의 진단 정확도가 생성형 AI 진단 정확도에 비해 15.8% 더 높은 것으로 나타났다. 생성형 AI의 진단 정확도는 평균 52.1%(95% 신뢰구간은 47.0~57.1%)로 나타났다.
이중 최신 생성형 AI 모델의 경우, 전문의가 아닌 일반의와 거의 비슷한 정확도를 보이기도 했다. 일반의 진단 정확도는 평균 52.7%로 생성형 AI 평균보다 0.6% 더 높게 나타났다. 다만 이는 평균적인 값이며 GPT-4, GPT-4o, Llama 3 70B, Gemini 1.0 Pro, Gemini 1.5 Pro, Claude 3 등 일부 모델은 일반의보다 약간 더 높은 정확도를 보였다.
연구팀을 이끈 의학연구과 히로타카 타키타 박사는 “이번 연구 결과는 생성형 AI 진단 능력이 전문의 취득 전 일반 의사들과 거의 동등하다는 근거로 볼 수 있다”라며 “이는 의학 교육에 활용할 수도 있고, 의료 자원이 부족한 지역에서 유용하게 쓰일 수 있을 것”이라고 이야기했다.
다만, 타키타 박사는 생성형 AI의 진단 능력을 보다 세밀하게 검증하기 위해, 더욱 복잡한 임상 시나리오를 대상으로 한 평가, 실제 의료 기록을 바탕으로 한 성과 평가 등이 필요하다고도 말했다. 또한, AI 의사결정의 투명성을 높이고, 다양한 특성을 가진 환자 그룹을 대상으로 검증하는 등의 추가 연구도 필요하다고 강조했다.

-
진료 음성인식 시스템, 응급상황 대화까지 자동 기록한다
서울아산병원이 인공지능 기반 진료 음성인식 시스템을 국내 최초로 구축했다고 밝혔다. 의료진과 환자의 세세한 대화 내용은 물론, 응급상황에서 주고받는 의료진 대화까지 기록으로 남길 수 있다는 설명이다. -
챗GPT의 가능성, “심리치료 개선에 기여할 수 있다”
인공지능은 인간의 감정을 공감하고 이해할 수 없을까? 공감과 이해를 어떻게 정의하는지에 따라 다를 것이다. 하지만 적어도, '심리치료'에 인공지능이 기여할 수 있는 부분은 있어 보인다. -
AI 의료 결정 능력, 임상 진단에도 충분한 가능성 있다
인공지능(AI)이 각종 변수와 맥락이 중요한 임상 상황에서도 의료적으로 우수한 결정을 내릴 수 있다는 연구 결과가 나왔다. -
수술 전 위험도, 인공지능으로 평가한다
수술 전 위험을 보다 빠르고 정확하게 예측할 수 있는 길이 열렸다. 서울대병원은 수술 전 중증도를 분류할 수 있는 인공지능 기반 모델을 자체 개발하고, 그 성능을 검증한 결과를 28일(월) 발표했다. 이를 통해 향후 보다 객관적인 수술 위험 평가가 가능할 것으로 기대된다. ASA-PS 등급에 따라 수술 계획 달라져수술 전 마취 위험을 평가하는 과정은 환자의 안전을 위해 매우 중요하다. 국내 의료 현장에서는 환자의 전반적인 건강상태를 1등급(건강한 환자)부터 6등급(뇌사 상태)으로 구분한다. 이는 ‘미국마취과학회 신체상태 분류(Ame -
손톱 건강 진단 앱의 가능성, “AI로 빈혈 여부 진단한다”
지난 13일 미국 국립과학원 회보(PNAS)에 게재된 한 연구의 제목은 상당히 눈길을 잡아끈다. 바로 ‘손톱 사진으로 빈혈 여부를 검진할 수 있는 스마트폰 앱’에 대한 내용이다.
