구글은 TurboQuant 알고리즘 덕분에 AI 모델의 메모리 사용량을 6배 줄이면서 정확성을 유지했습니다

구글은 TurboQuant 알고리즘 덕분에 AI 모델의 메모리 사용량을 6배 줄이면서 정확성을 유지했습니다

5 hardware

Google Research는 대형 언어 모델의 KV-캐시 압축을 위한 새로운 방법인 TurboQuant를 발표했습니다. 이 알고리즘은 캐시 비트 수를 3비트(오류 정정 추가 시 4비트)로 줄이면서 정확도와 성능 저하 없이 작동합니다. Nvidia H100 가속기에서 TurboQuant는 어텐션 로짓 계산 속도를 8배 향상시키고 KV-캐시 크기를 6배 감소시켰습니다.

KV-캐시란 무엇이며 왜 중요한가
* KV-캐시는 주의 메커니즘 계산 시 얻은 키(K)와 값(V)를 저장합니다.
이를 통해 모델이 토큰 생성 단계마다 다시 계산할 필요가 없습니다.
* 컨텍스트 윈도우가 커지면 캐시 크기가 기하급수적으로 증가해 메모리 비용이 크게 상승합니다.
* 기존 양자화 방법은 캐시 크기를 줄이지만 ZIP/RAR과 유사한 양자화 상수를 저장해야 하므로 상당한 오버헤드를 발생시킵니다.

TurboQuant 작동 방식
TurboQuant는 두 단계로 구성되며, 전혀 사전(dictionary)을 사용하지 않습니다.

단계수행 내용중요성
1. PolarQuant직교 좌표에서 극좌표(반지름 + 각도)로 변환합니다. 각도 분포가 예측 가능하고 집중되어 있어 각 블록을 정규화하는 비용이 필요 없습니다. 결과적으로 사전 없이 고품질 압축이 가능합니다.
2. 1비트 오류 정정 층Johnson-Lindenstrauss 양자화 알고리즘을 적용해 나머지 오차를 한 비트로 줄입니다. 어텐션 계산의 체계적 오차를 최소한의 추가 비용으로 제거합니다.

실제 성능 결과
| 테스트 | 알고리즘 | 결과 |
|--------|----------|------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: KV-캐시 최소 6배 압축; “구멍 찾기” 작업에서 정확도 손실 없음. LongBench에서는 KIVI보다 못지않거나 더 우수함. |
| 벡터 검색 (GloVe) | TurboQuant vs Product Quantization, RabbiQ | 학습 없이도 TurboQuant가 경쟁 모델을 메모리 사용량과 결과 품질 면에서 앞섰습니다. |

결론
* TurboQuant는 KV-캐시를 3–4비트로 강력하게 압축하면서 정확도를 유지하고 추가 학습이 필요 없습니다.
* Nvidia H100에서는 성능이 8배 증가했고 캐시 크기가 6배 감소했습니다.
* 대형 언어 모델과 벡터 검색 모두에 적용 가능하며 미세 조정 없이 바로 사용할 수 있습니다.

따라서 TurboQuant는 높은 부하에서도 실용적이며, 대규모 모델 운영의 효율성을 크게 향상시킬 새로운 기회를 제공합니다.

댓글 (0)

의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.

아직 댓글이 없습니다. 댓글을 남기고 의견을 공유해 주세요!

댓글을 남기려면 로그인해 주세요.

댓글을 남기려면 로그인