본문 바로가기
건강 종합

인공지능이 의사보다 의학적인 질문에 더 잘 대답할 수 있나요?

by 정보톡톡01 2024. 4. 17.

작년에는 인공지능 (AI)에 관한 연구를 설명하는 헤드라인이 눈길을 끌었습니다:

언뜻 보기에 인공지능을 사용하는 챗봇이 환자의 질문에 좋은 답변을 제공할 수 있을 것이라는 생각은 놀라운 일이 아닙니다. 실제로 ChatGPT는 와튼 MBA 최종 시험에 합격하고, 몇 시간 만에 책을 집필하고, 오리지널 음악을 작곡했다고 자랑하고 있습니다.

하지만 의사보다 더 많은 공감을 표시한다고요? 아야. 품질과 공감 능력에 대한 최종 우열을 가리기 전에 다시 한 번 살펴봅시다.

 

의료 분야에서 AI는 어떤 업무를 담당하고 있나요?

이미 빠르게 성장하고 있는 AI의 의료 응용 분야에는 의사 소견서 작성, 진단 제안, 엑스레이 및 MRI 스캔 판독 지원, 심박수나 산소 수치와 같은 실시간 건강 데이터 모니터링 등이 있습니다.

하지만 AI가 생성한 답변이 실제 의사보다 더 공감할 수 있다는 생각에 놀라움과 슬픔을 동시에 느꼈습니다. 아무리 최첨단 기계라도 이 중요하고 특히 인간의 미덕인 공감 능력을 어떻게 의사보다 뛰어나게 발휘할 수 있을까요?

AI가 환자의 질문에 좋은 답변을 제공할 수 있을까요?

흥미로운 질문입니다.

복용 중인 약 중 하나에 대해 궁금한 점이 있어 병원에 전화했다고 가정해 보세요. 나중에 의료팀의 임상의가 다시 전화하여 이에 대해 논의합니다.

이제 다른 시나리오를 상상해 보세요. 이메일이나 문자로 질문을 하고 몇 분 안에 AI를 사용하여 컴퓨터가 생성한 답변을 받는다고 가정해 보세요. 이 두 가지 상황의 의료 답변은 품질 측면에서 어떻게 비교될까요? 그리고 공감도 측면에서는 어떻게 비교될까요?

이러한 질문에 답하기 위해 연구원들은 온라인 소셜 미디어 사이트의 익명의 사용자로부터 195개의 질문과 답변을 수집하여 자발적으로 답변을 제공한 의사들에게 질문했습니다. 이 질문은 나중에 ChatGPT에 제출되어 챗봇의 답변을 수집했습니다.

그런 다음 의사 또는 간호사 3명으로 구성된 패널이 두 답변의 품질과 공감도를 평가했습니다. 패널은 5점 척도로 "어떤 답변이 더 좋았나요?"라는 질문을 받았습니다. 품질에 대한 평가 옵션은 매우 나쁨, 나쁨, 보통, 좋음, 매우 좋음이었습니다. 공감도에 대한 평가 옵션은 공감하지 않음, 약간 공감함, 보통 공감함, 공감함, 매우 공감함 등이었습니다.

연구 결과는 무엇인가요?

결과는 비슷하지도 않았습니다. 거의 80%의 답변에서 ChatGPT가 의사보다 더 나은 것으로 간주되었습니다.

  • 답변 품질이 좋거나 매우 좋음: ChatGPT는 응답의 78%에서 이러한 평가를 받은 반면, 의사는 응답의 22%에서만 이러한 평가를 받았습니다.
  • 공감 또는 매우 공감하는 답변: ChatGPT는 45%, 의사는 4.6%의 점수를 받았습니다.

특히 의사의 답변 길이(평균 52단어)가 ChatGPT(평균 211단어)에 비해 훨씬 짧았습니다.

말씀드렸듯이 전혀 그렇지 않습니다. 그렇다면 그 숨 막히는 헤드라인이 모두 적절했을까요?

아직은 아닙니다: 이 AI 연구의 중요한 한계

이 연구는 두 가지 핵심 질문에 답하기 위해 고안된 것이 아닙니다:

  • AI 응답이 정확한 의료 정보를 제공하고 혼란이나 피해를 방지하면서 환자의 건강을 개선할 수 있나요?
  • 환자가 의사에게 질문하면 봇이 답변할 수 있다는 생각을 받아들일 수 있을까요?

그리고 몇 가지 심각한 한계가 있었습니다:

  • 답변 평가 및 비교: 평가자들은 품질과 공감도에 대해 검증되지 않은 주관적인 기준을 적용했습니다. 중요한 점은 답변의 실제 정확성을 평가하지 않았다는 점입니다. 또한 ChatGPT의 문제점으로 지적되어 온 답변의 조작 여부도 평가하지 않았습니다.
  • 답변 길이의 차이: 자세한 답변은 인내심이나 관심을 반영하는 것으로 보일 수 있습니다. 따라서 공감에 대한 높은 평가는 진정한 공감보다는 단어 수와 더 관련이 있을 수 있습니다.
  • 불완전한 블라인드: 편견을 최소화하기 위해 평가자는 답변이 의사로부터 나왔는지 ChatGPT로부터 나왔는지 알 수 없도록 했습니다. 이를 "블라인드"라고 하는 일반적인 연구 기법입니다. 하지만 AI가 생성한 대화가 항상 사람과 똑같이 들리는 것은 아니며, AI의 답변이 훨씬 더 길었습니다. 따라서 적어도 일부 답변에 대해서는 평가자가 블라인드를 하지 않았을 가능성이 높습니다.

결론

의사가 AI가 생성한 답변을 통해 공감의 표현에 대해 무언가를 배울 수 있을까요? 가능성은 있습니다. 의사가 검토하고 수정하는 답변을 생성하는 협업 도구로서 AI가 잘 작동할 수 있을까요? 실제로 일부 의료 시스템에서는 이미 이러한 방식으로 AI를 사용하고 있습니다.

그러나 정확성에 대한 확실한 증거와 의료 전문가의 실제 감독 없이 환자의 질문에 대한 AI 답변에 의존하는 것은 시기상조인 것 같습니다. 이 연구 역시 그러한 목적으로 설계되지 않았습니다.

그런데 ChatGPT도 동의합니다: 의학적 질문에 의사보다 더 잘 대답할 수 있는지 물어보았습니다. 대답은 '아니오'였습니다.

AI 지니가 환자의 질문에 자유롭게 답변할 수 있는 시기가 언제인지 알기 위해서는 더 많은 연구가 필요합니다. 아직 그 시점에 도달하지 못했을 수도 있지만 점점 가까워지고 있습니다.

반응형

댓글