AI 봇은 연구 결과에 따라 진단 오류가 거의 80%에 달한다.

16.04.2026 2 hardware

최근 연구 결과는 *Jama Network Open*에 발표되고 *Financial Times*에서 인용된 바와 같이, 인기 있는 챗봇은 제한된 데이터만 제공될 때 정확한 의료 진단을 내리지 못한다는 것을 보여줍니다. 80% 이상의 경우 잘못된 진단을 제시했으며, 증상을 완전하게 설명할 때만 정확도가 90%까지 상승했습니다.

연구 방법
- 단계: 수행 내용 선택 케이스 29개의 임상 시나리오를 참고 문헌에서 선정.
- 데이터 전달: 환자 정보가 차례대로 챗봇에 제공되었습니다. 병력 → 검사 결과 → 실험실 분석.
- AI 질문: 진단을 요청하고 답변의 정확도와 완전성을 측정했습니다.

실험 참가자
- OpenAI, Anthropic, Google, xAI, DeepSeek 등 20개의 인기 모델.
- 데이터가 불완전할 때 80% 이상이 잘못된 진단을 내림.
- 정보량이 늘어날수록 정확도가 상승: 최고 사례 >90%, 평균 오류 <40%.

개발자 반응
- Google & Anthropic: 의료 조언을 요청하면 챗봇은 전문가에게 상담하도록 강력히 권고합니다.
- OpenAI: 이용 약관에 서비스가 면허받은 의료 조언을 제공하기 위한 것이 아님을 명시합니다.
- xAI & DeepSeek: 의견을 제시하지 않았습니다.

일부는 특화 모델 개발 중입니다. Google은 AMIE를 만들었으며, 좋은 성과를 보였지만 여전히 인간 의사의 확인이 필요하며 시각적 평가가 중요한 상황에서는 특히 그렇습니다.

결론
챗봇은 보조 도구로 유용할 수 있지만 제한된 정보만으로는 자주 오류를 범합니다. 현재로서는 자격을 갖춘 의료 전문가의 대체로 사용하기에는 부적절하지만, 전통적인 의료 접근이 부족한 지역에서는 도움이 될 수 있습니다

AI 봇은 연구 결과에 따라 진단 오류가 거의 80%에 달한다.

Related news

인공지능은 희귀하고 드물게 사용되는 언어 연구에서 성과를 입증했다

티너와 다른 서비스들은 실제 사용자를 확인하는 절차를 도입할 것이며, 이는 암호화폐 영역을 넘어서는 것이라고 World Altman이 발표했습니다

마이크로소프트 엣지(Edge)는 이제 안드로이드에서 유튜브 동영상을 백그라운드에서도 재생할 수 있어 이전 제한을 우회합니다

애플‑카는 이렇게 보일 수 있습니다: 페라리(Ferrari)가 전기차 루스(Luce)의 내부를 선보이며, 이는 조니아이브(Joni Aiv)가 설계했습니다

댓글 (0)

댓글을 남기려면 로그인