NVIDIA는 AI 에이전트를 위한 속도 5배 향상을 제공하는 오픈형 LLM인 Nemotron 3 Super 120B를 발표했습니다
새로운 Nvidia 모델 – Nemotron 3 Super
Nvidia는 Mixture‑of‑Experts (MoE) 유형의 공개 AI 모델인 Nemotron 3 Super 출시를 발표했습니다.
* 총 120억 개 파라미터 중 12억 개가 활성화됩니다.
* 다중 에이전트 AI 시스템, 즉 여러 “에이전트”가 서로 및 외부 세계와 상호작용하는 시스템을 위해 설계되었습니다.
아키텍처
Nemotron 3 Super는 Mamba‑Transformer( Mamba 레이어와 Transformer 요소의 결합) 하이브리드 접근 방식을 사용합니다.
첫 번째로 LatentMoE 패러다임, Multi‑Token Prediction 레이어 및 NVFP4 프로토콜을 통한 사전 학습이 적용되었습니다. Nvidia는 이 스택이 정확도를 높이고 추론 속도를 가속화한다고 말합니다.
성능
* 처리량 – 이전 Nemotron Super 버전보다 최대 5배 빠릅니다.
* 정확도 – 최대 2배 향상됩니다.
* 100만 토큰의 컨텍스트 윈도우 지원으로 에이전트가 작업 흐름의 전체 상태를 저장할 수 있어 목표에서 벗어날 위험을 줄입니다.
실제 적용
Nemotron 3 Super는 다중 에이전트 시스템 내 복잡한 과제에 적합합니다:
| 과제 | 사용 예시 |
|---|---|
| 문서 분할 없이 코드 생성 및 디버깅 | 자동으로 대규모 프로그램 작성 및 검증 |
| 재무 분석 | 수천 페이지 보고서를 모델 메모리에 포함 |
학습
이 모델은 논리적 사고 모델을 활용해 합성 데이터로 학습되었습니다. Nvidia는 전체 방법론을 공개합니다:
* 사전·사후 학습에 10조 토큰 이상 사용
* 강화 학습용 15개 환경
* 평가 레시피
연구원들은 Nvidia NeMo 플랫폼을 사용하여 모델을 미세 조정하거나 자체 버전을 만들 수 있습니다.
기술 세부 사항
* Nvidia Blackwell 아키텍처에서 NVFP4 지원
* 메모리 요구량 감소 및 FP8 대비 4배 빠른 추론, 정확도 손실 없음
접근성
모델은 이미 사용 가능합니다:
* build.nvidia.com, Hugging Face, OpenRouter, Perplexity를 통해
* 클라우드 파트너: Google Cloud Vertex AI, Oracle Cloud Infrastructure, CoreWeave, Together AI, Baseten, Cloudflare, DeepInfra, Fireworks AI, Modal
* Nvidia NIM 마이크로서비스 형태로 로컬 또는 클라우드에 배포 가능
Nemotron 3 Super는 높은 정확도, 확장성 및 설정 유연성을 결합해 에이전트 AI의 새로운 가능성을 열어줍니다
댓글 (0)
의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.
댓글을 남기려면 로그인