구글은 TurboQuant 알고리즘 덕분에 AI 모델의 메모리 사용량을 6배 줄이면서 정확성을 유지했습니다
Google Research는 대형 언어 모델의 KV-캐시 압축을 위한 새로운 방법인 TurboQuant를 발표했습니다. 이 알고리즘은 캐시 비트 수를 3비트(오류 정정 추가 시 4비트)로 줄이면서 정확도와 성능 저하 없이 작동합니다. Nvidia H100 가속기에서 TurboQuant는 어텐션 로짓 계산 속도를 8배 향상시키고 KV-캐시 크기를 6배 감소시켰습니다.
KV-캐시란 무엇이며 왜 중요한가
* KV-캐시는 주의 메커니즘 계산 시 얻은 키(K)와 값(V)를 저장합니다.
이를 통해 모델이 토큰 생성 단계마다 다시 계산할 필요가 없습니다.
* 컨텍스트 윈도우가 커지면 캐시 크기가 기하급수적으로 증가해 메모리 비용이 크게 상승합니다.
* 기존 양자화 방법은 캐시 크기를 줄이지만 ZIP/RAR과 유사한 양자화 상수를 저장해야 하므로 상당한 오버헤드를 발생시킵니다.
TurboQuant 작동 방식
TurboQuant는 두 단계로 구성되며, 전혀 사전(dictionary)을 사용하지 않습니다.
| 단계 | 수행 내용 | 중요성 |
|---|---|---|
| 1. PolarQuant | 직교 좌표에서 극좌표(반지름 + 각도)로 변환합니다. 각도 분포가 예측 가능하고 집중되어 있어 각 블록을 정규화하는 비용이 필요 없습니다. 결과적으로 사전 없이 고품질 압축이 가능합니다. | |
| 2. 1비트 오류 정정 층 | Johnson-Lindenstrauss 양자화 알고리즘을 적용해 나머지 오차를 한 비트로 줄입니다. 어텐션 계산의 체계적 오차를 최소한의 추가 비용으로 제거합니다. |
실제 성능 결과
| 테스트 | 알고리즘 | 결과 |
|--------|----------|------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: KV-캐시 최소 6배 압축; “구멍 찾기” 작업에서 정확도 손실 없음. LongBench에서는 KIVI보다 못지않거나 더 우수함. |
| 벡터 검색 (GloVe) | TurboQuant vs Product Quantization, RabbiQ | 학습 없이도 TurboQuant가 경쟁 모델을 메모리 사용량과 결과 품질 면에서 앞섰습니다. |
결론
* TurboQuant는 KV-캐시를 3–4비트로 강력하게 압축하면서 정확도를 유지하고 추가 학습이 필요 없습니다.
* Nvidia H100에서는 성능이 8배 증가했고 캐시 크기가 6배 감소했습니다.
* 대형 언어 모델과 벡터 검색 모두에 적용 가능하며 미세 조정 없이 바로 사용할 수 있습니다.
따라서 TurboQuant는 높은 부하에서도 실용적이며, 대규모 모델 운영의 효율성을 크게 향상시킬 새로운 기회를 제공합니다.
댓글 (0)
의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.
댓글을 남기려면 로그인