AI 봇은 연구 결과에 따라 진단 오류가 거의 80%에 달한다.

AI 봇은 연구 결과에 따라 진단 오류가 거의 80%에 달한다.

2 hardware

최근 연구 결과는 *Jama Network Open*에 발표되고 *Financial Times*에서 인용된 바와 같이, 인기 있는 챗봇은 제한된 데이터만 제공될 때 정확한 의료 진단을 내리지 못한다는 것을 보여줍니다. 80% 이상의 경우 잘못된 진단을 제시했으며, 증상을 완전하게 설명할 때만 정확도가 90%까지 상승했습니다.

연구 방법
- 단계: 수행 내용 선택 케이스 29개의 임상 시나리오를 참고 문헌에서 선정.
- 데이터 전달: 환자 정보가 차례대로 챗봇에 제공되었습니다. 병력 → 검사 결과 → 실험실 분석.
- AI 질문: 진단을 요청하고 답변의 정확도와 완전성을 측정했습니다.

실험 참가자
- OpenAI, Anthropic, Google, xAI, DeepSeek 등 20개의 인기 모델.
- 데이터가 불완전할 때 80% 이상이 잘못된 진단을 내림.
- 정보량이 늘어날수록 정확도가 상승: 최고 사례 >90%, 평균 오류 <40%.

개발자 반응
- Google & Anthropic: 의료 조언을 요청하면 챗봇은 전문가에게 상담하도록 강력히 권고합니다.
- OpenAI: 이용 약관에 서비스가 면허받은 의료 조언을 제공하기 위한 것이 아님을 명시합니다.
- xAI & DeepSeek: 의견을 제시하지 않았습니다.

일부는 특화 모델 개발 중입니다. Google은 AMIE를 만들었으며, 좋은 성과를 보였지만 여전히 인간 의사의 확인이 필요하며 시각적 평가가 중요한 상황에서는 특히 그렇습니다.

결론
챗봇은 보조 도구로 유용할 수 있지만 제한된 정보만으로는 자주 오류를 범합니다. 현재로서는 자격을 갖춘 의료 전문가의 대체로 사용하기에는 부적절하지만, 전통적인 의료 접근이 부족한 지역에서는 도움이 될 수 있습니다

댓글 (0)

의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.

아직 댓글이 없습니다. 댓글을 남기고 의견을 공유해 주세요!

댓글을 남기려면 로그인해 주세요.

댓글을 남기려면 로그인