Nvidia는 블랙웰 아키텍처의 개선 덕분에 신경망 추론 비용이 10배 수준으로 감소했다고 밝혔으며, 이 성공을 하드웨어뿐만 아니라 다른 요인에도 기여한다고 말했습니다
Nvidia Blackwell 아키텍처에서 추론 비용 절감
새로운 Nvidia Blackwell 가속기는 학습된 AI 시스템의 실행 비용을 4–10배까지 낮출 수 있습니다. 이는 Nvidia가 자체적으로 발표한 데이터입니다. 그러나 관련 소프트웨어 및 인프라 개선 없이 이러한 성장은 달성하기 어렵습니다.
비용 절감을 크게 실현한 방법
지표 이해에 도움을 준 요소 Blackwell 아키텍처 가속기 모델 오픈소스 (MoE, NVFP4 등) 플랫폼 Baseten, DeepInfra, Fireworks AI, Together AI 소프트웨어 스택 낮은 정밀도를 위한 최적화된 파이프라인
* Blackwell으로의 전환은 이전 세대 가속기에 비해 효율성을 두 배로 끌어올립니다.
* 낮은 정밀도 포맷 (예: NVFP4)을 사용하면 비용을 추가로 절감할 수 있습니다.
실제 사례
회사 작업 내용 결과 Sully.ai 의료, Baseten에서 공개 모델 90 % 추론 비용 절감 (10배 감소), 65 % 응답 시간 단축. 코드 및 의료 기록 자동화로 3천만 분 작업을 절약했습니다. Latitude (AI Dungeon) 게임, DeepInfra에서 MoE 모델 1백만 토큰당 추론 비용이 $0.20에서 $0.05로 감소: 먼저 MoE(최대 $0.10), 그 다음 NVFP4 사용. Sentient Foundation 에이전트 챗, Fireworks AI 경제적 효율성이 25–50 % 증가했습니다. 플랫폼은 주당 560만 요청을 지연 없이 처리했습니다. Decagon 고객 음성 지원, Together AI Blackwell 기반 다중 모델 스택 덕분에 요청 비용이 6배 감소했습니다. 토큰 수가 몇 천 개일 때도 응답 시간 <400 ms.
작업 부하 특성이 중요한 이유
* 추론 모델은 더 많은 토큰을 생성하기 때문에 보다 강력한 가속기가 필요합니다.
* 플랫폼은 *분산 서비스*: 별도의 사전 컨텍스트와 토큰 생성을 사용해 긴 시퀀스를 효율적으로 처리합니다.
* 대규모 생성에서는 최대 10배 효율 상승이 가능하지만, 소규모에서는 4배에 그칩니다.
Blackwell 대안
AMD Instinct MI300, Google TPU, Groq 또는 Cerebras 가속기로 전환해도 비용을 절감할 수 있습니다. 핵심은 특정 작업 부하에 맞는 하드웨어, 소프트웨어 및 모델 조합을 선택하는 것이지 단순히 Blackwell만 사용하는 것이 아닙니다.
결론:
추론 비용 절감은 하드웨어(Blackwell), 오픈 모델, 최적화된 스택 및 적절한 업무 분배를 포함한 종합적인 접근 방식으로 달성됩니다. 이를 통해 의료, 게임, 에이전트 AI 및 음성 지원 분야에서 품질이나 속도 손실 없이 최대 10배까지 비용을 절감할 수 있습니다
댓글 (0)
의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.
댓글을 남기려면 로그인