인공지능 로봇은 사람과의 장기 대화에서 효율성을 잃는다—마이크로소프트의 대규모 연구가 이를 입증했다

24.02.2026 9 hardware

Microsoft Research와 Salesforce의 연구: 대형 AI 모델이 대화에서 방향을 잃는 이유

연구 대상
모델 200 000+ 다중 단계 대화 GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

핵심 결론
지표 | 결과
단일 요청 정확도 90 % (GPT‑4.1, Gemini 2.5 Pro)
긴 대화에서의 정확도 ~65 % – 효율이 거의 한 세 번째로 감소
모델 행동: 첫 잘못된 답변을 기반으로 다음 응답을 “재사용”하는 경우가 많음
응답 길이: 다중 단계 대화에서 20‑300 % 증가, 환각과 가정이 늘어남
신뢰성: 112 %까지 감소 (모델이 “조기”에 답변을 생성하고 요청을 완전히 읽지 않음)

왜 이런 일이 발생하는가?
1. 잘못된 기반 재사용
모델은 첫 번째 결론을 고수하며, 그 결론이 틀렸더라도 이후 응답을 구축함.
2. 컨텍스트 확대
새로운 질문마다 더 많은 텍스트가 추가되어 “생각”에 포함되는 가짜 사실의 수가 늘어남.
3. 사고 토큰 문제
o3, DeepSeek R1 같은 추가 토큰이 있는 모델도 이 함정에서 벗어나지 못하고 여전히 너무 일찍 답변을 생성함.

사용자에게 의미하는 바
- 실제 대화에서 낮은 신뢰성: AI가 존재하지 않는 주제로 전환될 수 있음.
- 잘못된 정보 위험: 기존 검색 엔진 대신 생성형 도구(예: Google‑AI 리뷰)를 사용하면 부정확한 데이터를 받을 가능성이 높아짐.
- 고품질 프롬프트의 중요성: Microsoft는 이전에 요청 설계 시 낮은 엔지니어링 수준을 지적했으며, 실패한 질문과 “나쁜” 프롬프트가 AI가 잠재력을 발휘하지 못하게 할 수 있음.

결론
대형 언어 모델 기술은 아직 발전 단계에 있다. 단일 요청에서 높은 정확도를 보이지만 다중 단계 대화에서는 신뢰성이 문제다. 안전하고 효과적인 AI 사용을 위해서는:

1. 명확하고 구체적인 질문 작성
2. 모델의 답변을 수정할 준비
3. 사실 검증 없이 생성형 콘텐츠에 완전히 의존하지 않기

궁극적으로, 모델 개선과 장기 대화에서의 견고성 향상이 AI를 사용자에게 신뢰할 수 있는 파트너로 만드는 핵심이다

인공지능 로봇은 사람과의 장기 대화에서 효율성을 잃는다—마이크로소프트의 대규모 연구가 이를 입증했다

Related news

인공지능은 희귀하고 드물게 사용되는 언어 연구에서 성과를 입증했다

티너와 다른 서비스들은 실제 사용자를 확인하는 절차를 도입할 것이며, 이는 암호화폐 영역을 넘어서는 것이라고 World Altman이 발표했습니다

마이크로소프트 엣지(Edge)는 이제 안드로이드에서 유튜브 동영상을 백그라운드에서도 재생할 수 있어 이전 제한을 우회합니다

애플‑카는 이렇게 보일 수 있습니다: 페라리(Ferrari)가 전기차 루스(Luce)의 내부를 선보이며, 이는 조니아이브(Joni Aiv)가 설계했습니다

댓글 (0)

댓글을 남기려면 로그인