
수술 전 위험을 보다 빠르고 정확하게 예측할 수 있는 길이 열렸다. 서울대병원은 수술 전 중증도를 분류할 수 있는 인공지능 기반 모델을 자체 개발하고, 그 성능을 검증한 결과를 28일(월) 발표했다. 이를 통해 향후 보다 객관적인 수술 위험 평가가 가능할 것으로 기대된다.
ASA-PS 등급에 따라 수술 계획 달라져
수술 전 마취 위험을 평가하는 과정은 환자의 안전을 위해 매우 중요하다. 국내 의료 현장에서는 환자의 전반적인 건강상태를 1등급(건강한 환자)부터 6등급(뇌사 상태)으로 구분한다. 이는 ‘미국마취과학회 신체상태 분류(American Society of Anesthesiologists Physical Status, 이하 ASA-PS)’에 따른 것으로, 이를 통해 마취 위험을 비롯한 전반적인 수술 위험을 예측하고 있다.
그러나 ASA-PS 체계는 ‘중증도’를 분류하는 기준이 주관적이다. 이 때문에 ASA-PS 등급을 분류하는 데 있어 의료진 간 의견이 일치하지 않는 문제가 종종 발생했다. 예를 들어, 만성 천식이 있는 환자에 대해 등급을 분류할 때, 한 의사는 천식이 잘 조절되고 있으며 일상에 큰 지장이 없다고 판단해 ASA-PS 2로 분류할 수 있다. 반면, 다른 의사는 천식이 언제든 발작할 수 있다는 가능성을 고려해 ASA-PS 3으로 분류할 수 있다.
ASA-PS 등급은 마취 방법부터 수술 중 환자 상태 모니터링, 수술 참여 인원 구성, 수술 시간 등 전체적인 의사결정에 영향을 미친다. 따라서 등급 분류에서 의료진 간 의견이 일치하지 않으면 수술 계획 단계부터 문제가 생긴다. 즉, 효율적인 의료 서비스 제공을 위해 중증도 마취 위험을 객관적이고 일관되게 파악할 수 있는 수술 전 평가 도구가 필요한 상황이었다.

ASA-PS 등급 자동 분류 모델 개발
서울대병원 마취통증의학과 이형철·윤수빈 교수는 국가전략기술 특화연구소 이현훈 교수와의 공동연구팀을 구성하여 수술 전 마취 위험을 예측하는 인공지능 모델을 개발했다. 공동연구팀은 2004년부터 2023년까지 서울대병원에서 수술을 받았던 환자 71만여 명의 수술 데이터를 학습시켜, ASA-PS 등급을 자동으로 분류하는 ‘거대 언어모델(LLM)’을 자체 개발했다.
이 모델은 챗GPT와 마찬가지로 ‘자연어 처리(NLP)’ 기술을 기반으로 한다. 또한, 매우 민감한 개인 정보에 해당하는 의료 기록을 다루는 모델이므로, 암호화와 접근 제한, 데이터 익명화 등의 기술을 적용해 보안에도 만전을 기했다.
이 거대 언어모델은 환자의 건강상태와 기저질환 등을 서술한 ‘마취 전 평가 요약문’을 토대로 ASA-PS 등급을 신속하고 객관적으로 부여한다. 인공지능 모델에 의한 평가 결과를 기준으로 한다면, 의료진 간 의견 불일치를 예방할 수 있으며 임상 현장에서의 의사소통 효율성을 높일 수 있다. 이는 결국 환자의 안전을 높이는 데 도움이 된다.
전문의 등급 분류보다 우수한 성능
공동연구팀은 환자 460명의 데이터를 바탕으로 ASA-PS 등급 분류 성능을 평가했다. 그 결과, 이 모델의 평균 예측 정확도(AUROC)는 0.915로 매우 높은 수준을 기록했다. AUROC는 모델의 전반적인 성능을 평가하기 위한 도구로, 수치가 1에 가까울수록 완벽에 가까운 예측을 했음을 의미한다.
단, AUROC 값이 높다고 해서 그 성능이 항상 좋다는 것을 의미하지는 않는다. 실제 상황에서는 여러 지표들을 함께 고려해야 하기 때문이다. 특히 정밀도(모델 양성 예측 → 실제 양성)와 재현율(실제 양성 → 모델 양성 예측)이 중요하다. 이에 연구팀은 특이도, 정밀도, F1-점수에 대해서도 평가를 진행했다. F1-점수는 정밀도 및 재현율의 조화평균을 나타낸 값이다.
거대 언어모델의 등급 분류와 마취과 전문의에 의한 등급 분류를 비교한 결과, 특이도는 0.901 vs 0.897, 정밀도는 0.732 vs 0.715, F1-점수는 0.716 vs 0.713으로 나타났다. 세 가지 지표 모두 거대 언어모델이 조금씩 더 높게 나타났다.
한편, ASA-PS 1~2등급과 3등급을 분류하는 것은 임상적 의사결정에 있어 특히 중요하다. 1~2등급은 건강하거나 상대적으로 경미한 수준을 나타내며, 3등급은 비교적 심각한 상황일 때 부여되는 등급이기 때문이다. 1~2등급의 환자가 특정 상황이나 질병에 따라 3등급으로 분류될 수도 있고, 1~2등급으로 평가되는 질환과 3등급으로 평가되는 질환이 동시에 존재할 수도 있다.
이에 대한 오류율을 평가한 결과, 거대 언어모델 11.74%, 마취과 전문의 13.48%로 나타났다. 이 역시 거대 언어모델이 보다 낮은 오류율을 보임으로써 신뢰성이 높다는 점을 입증했다.
환자 안전 및 의료 질 향상에 기여
마취통증의학과 이형철, 윤수빈 교수는 “인공지능 기술이 임상 현장에서 실질적으로 활용될 수 있다는 것을 보여주는 성과”라며 “환자의 안전 및 의료 질 향상에 기여할 수 있도록 후속 연구 및 기술 개발에 노력하겠다”라고 이야기했다. 국가전략기술 특화연구소 이현훈 교수는 “인공지능을 통한 수술 전 평가 모델이 세계적으로 활용될 수 있도록 글로벌 기술사업화를 추진해나가겠다”라는 계획을 밝혔다.
이번 연구는 「네이처」의 디지털 헬스케어 분야 파트너 저널인 「디지털 메디신(NPJ Digital Medicine, IF=12.4)」에 게재됐다.

-
장-뇌 직접 연결고리, 치매 연구의 전환점 될까?
의학의 아버지라 불리는 고대 그리스의 의사 히포크라테스는 ‘모든 질병은 장에서 비롯된다’라는 관점을 강조했다. 그만큼 히포크라테스는 장이 신체 건강에 중요한 역할을 한다고 봤으며, 장내 환경이 전체적인 건강 상태에 영향을 미친다고 주장해온 것으로 알려져 있다. 실제로 ‘장’이라는 장기는 생명의 근본이라 할 수 있는 음식을 소화시키는 곳이다. 즉, 몸에서 필요로 하는 대부분의 성분을 받아들이는 출발점이다. 질병이 꼭 영양소와 관련된 문제만으로 발생하는 것은 아니다. 하지만 높은 중요성과 비중을 갖는다는 것은 부정할 수 없다. 현대 의 -
고무처럼 유연하면서 ‘자동차 무게’까지 견디는 인공근육 개발
고무와 같은 유연성을 가지면서도 자동차 수준의 무게를 견딜 수 있는 인공근육이 개발됐다. 울산과학기술원(UNIST) 기계공학과 정훈의 교수 연구팀은 기존 대비 강성 변화율을 최대 2,700배 확대한 새로운 ‘자성 복합 인공근육’을 개발했다. 인공근육의 구성과 활용일반적으로 인공근육은 고분자(pollymer), 실리콘 등 유연성을 가진 재료로 만들어진다. 자연근육처럼 움직일 수 있는 것이 중요하기 때문에, 신축성이 좋고 가벼운 소재가 주력이 되는 것이다. 기술이 발전함에 따라 전기 변형 고분자(EPDM)와 같이 전기적, 온도적 자극에 -
‘스스로 걸어오는 웨어러블 로봇’ 개발
카이스트 연구팀이 타인의 도움 없이도 착용할 수 있는 웨어러블 로봇을 개발했다. 로봇이 직접 걸어오기 때문에, 하반신 완전마비 장애인이 휠체어에서 내리지 않고도 착용이 가능하다는 점에서 주목을 받는다.카이스트 기계공학과 공경철 교수 연구팀은 하반신마비 장애인을 위한 웨어러블 로봇 ‘워크온슈트 F1(WalkON Suit F1)을 24일(목) 공개했다. 워크온슈트는 공경철 교수 연구팀이 2015년부터 지속적으로 연구해 온 웨어러블 로봇이다. 비장애인 보행속도에 못지 않은 속도 달성공경철 교수 연구팀은 지난 2016년 ‘워크온슈트 1’을 -
세계 최초 ‘원자 편집’ 성공, 신약 개발 혁신 가능할까
카이스트 연구팀이 약효를 극대화하기 위한 ‘단일 원자 편집 기술’을 세계 최초로 개발했다. 카이스트 화학과 박윤수 교수 연구팀은 ‘오각 고리 화합물’인 퓨란(C4H4O)의 산소 원자(O)를 질소 원자(N)로 편집·교정함으로써, 제약 분야에서 널리 활용되는 ‘피롤 골격(Pyrrole Structure)’으로 직접 전환하는 원천기술을 개발하는 데 성공했다고 8일(화) 밝혔다. 약효를 극대화하는 '원자 편집’ 기술우리가 사용하는 많은 의약품은 복잡한 화학 구조로 이루어진다. 하지만 이들의 ‘효능’은 단 하나의 핵심 원자에 의해 결정되기도 -
인공지능 공감 능력, 사람보다 뛰어나다?
인공지능의 공감능력이 인간보다 뛰어날 수 있다는 연구 결과가 제기됐다. 다만, 전문 상담 등 실제 현장에서 인간을 대체하기에는 아직 부족하다는 의견이 지배적이다. -
생성형 AI 진단 능력, 일반의와 비슷한 수준
최신 생성형 AI 모델의 경우, 전문의가 아닌 일반의와 거의 비슷한 정확도를 보이기도 했다. GPT-4, GPT-4o, Llama 3 70B, Gemini 1.0 Pro, Gemini 1.5 Pro, Claude 3 등 일부 모델은 일반의보다 약간 더 높은 정확도를 보였다.
