인공지능은 스포츠 베팅에서 낮은 효율성을 보였으며, 잉글리시 프리미어 리그 경기에서 모든 돈을 잃었습니다
켈리벤치 실험 결과 요약
스타트업 *General Reasoning*은 2023–2024 시즌 잉글랜드 프리미어 리그 동안 베팅 성능을 평가하기 위해 KellyBench라는 테스트를 진행했습니다. Google Gemini 3.1 Pro, OpenAI ChatGPT‑4, Anthropic Claude Opus 4.6, xAI Grok 4.20 등 여덟 개의 주요 AI 시스템이 참가했습니다.
각 에이전트는 모든 팀과 과거 경기의 통계적 정보를 완전히 제공받았으나 인터넷 접근은 금지되었습니다 – 모델은 사전에 받은 데이터만 사용했습니다.
테스트 진행 방식
1. 3번 시도: 각 시스템은 시즌 동안 세 번에 걸쳐 베팅 시리즈를 만들 수 있었습니다.
2. 베팅 항목: 경기 결과(승/무/패)와 골 수.
3. 목표: 위험을 관리하면서 이익을 극대화하는 것.
우승자와 패배자
| AI 시스템 | 평균 성과 | 비고 |
|---|---|---|
| Anthropic Claude Opus 4.6 | 11 % (한 시도에서 거의 손익분기) | 가장 “정직”한 참가자이지만 여전히 돈을 잃음 |
| Google Gemini 3.1 Pro | +34 % 첫 번째 시도, 이후 파산 | 처음엔 이익, 그 뒤로는 손실 |
| xAI Grok 4.20 | 즉시 파산, 두 번째 시도 미완료 | 가장 약한 성과 |
결과적으로 모든 모델이 시즌 동안 돈을 잃었으며 일부는 완전히 실패했습니다. 이는 연구자들의 결론을 뒷받침합니다: 가장 진보된 AI 시스템조차 실제 세계에서 장기 예측에 어려움을 겪습니다.
AI의 미래가 의미하는 바
- 인간 대체에 대한 우려는 과장된 것처럼 보입니다.
- 현재 벤치마크는 “정적” 조건을 자주 사용하며, 이는 현실의 혼돈과 복잡성을 반영하지 못합니다.
- AI는 코드 작성 같은 특정 작업에서는 성공하지만, 대부분의 다른 인간 활동 분야에서 한계가 남아 있습니다.
따라서 KellyBench 실험은 AI가 아직 동적이고 예측 불가능한 과제—예를 들어 스포츠 예측—에서 인간을 능가할 준비가 되어 있지 않음을 보여줍니다.
댓글 (0)
의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.
댓글을 남기려면 로그인