인공지능 로봇은 사람과의 장기 대화에서 효율성을 잃는다—마이크로소프트의 대규모 연구가 이를 입증했다

인공지능 로봇은 사람과의 장기 대화에서 효율성을 잃는다—마이크로소프트의 대규모 연구가 이를 입증했다

9 hardware

Microsoft Research와 Salesforce의 연구: 대형 AI 모델이 대화에서 방향을 잃는 이유

연구 대상
모델 200 000+ 다중 단계 대화 GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

핵심 결론
지표 | 결과
단일 요청 정확도 90 % (GPT‑4.1, Gemini 2.5 Pro)
긴 대화에서의 정확도 ~65 % – 효율이 거의 한 세 번째로 감소
모델 행동: 첫 잘못된 답변을 기반으로 다음 응답을 “재사용”하는 경우가 많음
응답 길이: 다중 단계 대화에서 20‑300 % 증가, 환각과 가정이 늘어남
신뢰성: 112 %까지 감소 (모델이 “조기”에 답변을 생성하고 요청을 완전히 읽지 않음)

왜 이런 일이 발생하는가?
1. 잘못된 기반 재사용
모델은 첫 번째 결론을 고수하며, 그 결론이 틀렸더라도 이후 응답을 구축함.
2. 컨텍스트 확대
새로운 질문마다 더 많은 텍스트가 추가되어 “생각”에 포함되는 가짜 사실의 수가 늘어남.
3. 사고 토큰 문제
o3, DeepSeek R1 같은 추가 토큰이 있는 모델도 이 함정에서 벗어나지 못하고 여전히 너무 일찍 답변을 생성함.

사용자에게 의미하는 바
- 실제 대화에서 낮은 신뢰성: AI가 존재하지 않는 주제로 전환될 수 있음.
- 잘못된 정보 위험: 기존 검색 엔진 대신 생성형 도구(예: Google‑AI 리뷰)를 사용하면 부정확한 데이터를 받을 가능성이 높아짐.
- 고품질 프롬프트의 중요성: Microsoft는 이전에 요청 설계 시 낮은 엔지니어링 수준을 지적했으며, 실패한 질문과 “나쁜” 프롬프트가 AI가 잠재력을 발휘하지 못하게 할 수 있음.

결론
대형 언어 모델 기술은 아직 발전 단계에 있다. 단일 요청에서 높은 정확도를 보이지만 다중 단계 대화에서는 신뢰성이 문제다. 안전하고 효과적인 AI 사용을 위해서는:

1. 명확하고 구체적인 질문 작성
2. 모델의 답변을 수정할 준비
3. 사실 검증 없이 생성형 콘텐츠에 완전히 의존하지 않기

궁극적으로, 모델 개선과 장기 대화에서의 견고성 향상이 AI를 사용자에게 신뢰할 수 있는 파트너로 만드는 핵심이다

댓글 (0)

의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.

아직 댓글이 없습니다. 댓글을 남기고 의견을 공유해 주세요!

댓글을 남기려면 로그인해 주세요.

댓글을 남기려면 로그인