구글은 과학적 문제를 위한 고급 AI 서비스인 Gemini 3 Deep Think을 출시했으며, 이 서비스는 요청에 맞게 답변을 계속 “조정”합니다

구글은 과학적 문제를 위한 고급 AI 서비스인 Gemini 3 Deep Think을 출시했으며, 이 서비스는 요청에 맞게 답변을 계속 “조정”합니다

7 software

구글이 Gemini 3 Deep Think의 업데이트 버전을 발표했습니다

구글은 추론과 복잡한 과학·엔지니어링 문제 해결이 가능한 인공지능 플랫폼 Gemini 3 Deep Think에 대한 대규모 업데이트를 발표했습니다.

변경 내용
| 매개변수 | 새로움 | 어떻게 보이는가 | 목표 |
|---|---|---|---|
| 순수 이론에서 실용적 적용으로 전환 | 문제 해결을 명확한 제한 없이, 불완전한 데이터로도 가능 | Gemini 앱에 내장 | 구글 AI Ultra 구독자는 사용 가능하며 API를 통해 엔지니어와 기업(신청 필요) |
| 개발 파트너 | 과학자·연구원 | 복잡한 문제 공동 해결 |

성능 지표
- 테스트 | 결과 | 코멘트 |
|---|---|---|
| Humanity’s Last Exam | 48.4 % | 외부 도구 없이 |
| ARC‑AGI‑284,6 % | AI 어시스턴트 벤치마크 |
| Codeforces (Elo) | 3455 | 프로그래밍 솔루션 중 높은 등급 |
| IMO 2025 금메달 | 국제 올림피아드 참가자 수준과 동등 |
| 화학/물리 | 동일 결과 | 다양한 학문에서의 유연성 증명 |
| CMT‑Benchmark (이론 물리) | 50.5 % | 복잡한 개념에 대한 좋은 이해 |

AI 에이전트 “Aletheia”
DeepMind 구글 연구소에서는 Gemini 3 Deep Think를 기반으로 Aletheia 에이전트를 만들었습니다. 주요 특징:

1. 가설 검증 – 제시된 해결책의 약점을 찾아 반복적으로 수정합니다.
2. 불확실성 인식 – 답을 모른다고 알려줄 수 있습니다.
3. 외부 소스와 상호작용 – 구글 검색 서비스와 웹 탐색을 사용하지만, 허위 링크를 만들어내지 않습니다.

달성 단계
구글은 Aletheia의 성공을 다섯 단계로 나누었습니다:

단계설명예시
0 – “경미한 신규성”완전 자율 모드, 세 개의 에르도아 문제 해결 (첫 번째 수준)3개의 에르도아 문제
1 – “최소 신규성”추가 결과 하나를 자율 모드에서 제공네 번째 문제
2 – “출판 가능성”자율 및 인간 협업 결과, 보조 도구 포함데이터 작업
3–4 – “중대한/주목할 만한 돌파구”아직 달성되지 않음

Aletheia가 에르도아 문제를 해결하는 방식
* 현재까지 미해결된 700개의 문제 중 13개를 해결했습니다.
* 그 중 실제로 새로운 것은 4개이며, 나머지는 이미 과학계에서 알려진 것들입니다.
* 제출된 212개의 솔루션 중 6.5 %만이 내용적으로 정확했으며, 68.5 %는 근본적인 오류를 포함하고, 31.5 %는 문제를 잘못 해석했습니다.

개발자들은 AI가 “질문을 재해석하여 더 단순하게 답변하려 한다”며, 인간보다 “오류에 매우 취약하다”고 언급합니다. 결국 현재로서는 수학자를 인공지능으로 대체할 수 없습니다.

결론: Gemini 3 Deep Think와 그 에이전트 Aletheia는 다양한 과학 분야에서 인상적인 성과를 보여주지만, 정확성과 신뢰성 면에서 여전히 상당한 한계를 유지하고 있습니다. 구글은 AI의 깊은 추론 능력과 자체 결론 검증 기능을 개선하기 위해 계속 노력 중입니다

댓글 (0)

의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.

아직 댓글이 없습니다. 댓글을 남기고 의견을 공유해 주세요!

댓글을 남기려면 로그인해 주세요.

댓글을 남기려면 로그인