샤오미는 시각 인식, 음성 및 로봇 제어를 결합한 47억 개의 매개변수를 가진 AI 모델을 개발했습니다

샤오미는 시각 인식, 음성 및 로봇 제어를 결합한 47억 개의 매개변수를 가진 AI 모델을 개발했습니다

6 hardware

샤오미가 로봇 공학 시장에 진출

중국 모바일 기기 및 스마트 홈 거인 샤오미는 새로운 단계로서, 로봇용 자체 인공지능 모델 개발을 발표했습니다. 회사는 Xiaomi‑Robotics‑0를 공개했으며, 이는 오픈 소스 시스템으로 시각 인식, 언어 이해 및 실시간 동작 제어를 결합합니다. 이 모델은 47억 개의 파라미터를 가지고 있으며, 시뮬레이션과 실제 환경 모두에서 여러 기록을 세웠습니다.

모델 작동 방식
로봇은 일반적으로 “감지 → 판단 → 행동” 사이클을 거칩니다. Xiaomi‑Robotics‑0는 Mixture‑of‑Transformers (MoT) 아키텍처 덕분에 상황에 대한 폭넓은 이해와 정밀한 모터 제어를 균형 있게 수행합니다.

1. 시각-언어 모델(VLM) – 시스템의 “뇌”
* 흐릿한 명령도 해석하도록 훈련되었습니다 (“수건을 접어 주세요”).
* 고품질 이미지 기반으로 공간 관계를 이해합니다.
* 과제: 물체 탐지, 시각 질문에 대한 답변 및 논리적 추론.

2. 동작 전문가(Action Expert) – 움직임 생성기
* 확산 변환기(DiT)를 기반으로 합니다.
* 한 번에 하나의 행동을 생성하지 않고, 흐름 매칭을 통해 연속적인 동작 시퀀스를 형성해 부드러움과 정밀함을 보장합니다.

이해력 손실 없이 학습
전통적 VLM은 물리적 과제 학습 중 일부 인지 능력을 잃습니다. 샤오미는 멀티모달 데이터(이미지 + 텍스트)와 동작 데이터를 동시에 훈련시켜 이 문제를 해결했습니다. 학습 과정은 여러 단계로 구성됩니다:

1. 행동 제안 – VLM이 이미지에 대한 가능한 행동 분포를 예측하고 내부 표현을 실제 작업과 동기화합니다.
2. 이후 VLM은 “비활성” 상태가 되고, DiT는 노이즈에서 정확한 시퀀스를 생성하도록 별도로 훈련됩니다. 이는 핵심 특징에 의존하며 언어 토큰 대신 사용됩니다.

지연 최소화
모델 예측과 로봇 실제 동작 사이의 지연을 없애기 위해 비동기 출력을 사용합니다: AI 계산과 로봇 행동이 분리되어, 추가 계산이 필요할 때도 로봇이 끊임없이 움직일 수 있습니다.

* Clean Action Prefix – 이전에 예측된 행동을 반환하는 방법으로 부드러운 전환을 보장합니다.
* 주의 마스크는 현재 시각 시퀀스에 집중하고 과거 상태를 무시하여, 환경 변화에 대한 로봇 반응성을 높입니다.

결과
LIBERO, CALVIN 및 SimplerEnv와 같은 시뮬레이션 환경에서 Xiaomi‑Robotics‑0은 약 30개의 경쟁자를 앞섰습니다. 두 개의 조작기를 갖춘 실제 로봇에서는 수건 접기, 구성품 분해 등 복잡한 과제를 성공적으로 수행했습니다. 로봇은 손과 눈의 안정적인 협응을 보여주며 다양한 시나리오에서 물체를 효율적으로 다루었습니다.

따라서 샤오미는 제품 포트폴리오를 확장할 뿐만 아니라, 로봇의 “물리적 인텔리전스” 연구에 대한 기반을 마련했습니다

댓글 (0)

의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.

아직 댓글이 없습니다. 댓글을 남기고 의견을 공유해 주세요!

댓글을 남기려면 로그인해 주세요.

댓글을 남기려면 로그인