샤오미는 시각 인식, 음성 및 로봇 제어를 결합한 47억 개의 매개변수를 가진 AI 모델을 개발했습니다

샤오미가 로봇 공학 시장에 진출

중국 모바일 기기 및 스마트 홈 거인 샤오미는 새로운 단계로서, 로봇용 자체 인공지능 모델 개발을 발표했습니다. 회사는 Xiaomi‑Robotics‑0를 공개했으며, 이는 오픈 소스 시스템으로 시각 인식, 언어 이해 및 실시간 동작 제어를 결합합니다. 이 모델은 47억 개의 파라미터를 가지고 있으며, 시뮬레이션과 실제 환경 모두에서 여러 기록을 세웠습니다.

모델 작동 방식
로봇은 일반적으로 “감지 → 판단 → 행동” 사이클을 거칩니다. Xiaomi‑Robotics‑0는 Mixture‑of‑Transformers (MoT) 아키텍처 덕분에 상황에 대한 폭넓은 이해와 정밀한 모터 제어를 균형 있게 수행합니다.

1. 시각-언어 모델(VLM) – 시스템의 “뇌”
* 흐릿한 명령도 해석하도록 훈련되었습니다 (“수건을 접어 주세요”).
* 고품질 이미지 기반으로 공간 관계를 이해합니다.
* 과제: 물체 탐지, 시각 질문에 대한 답변 및 논리적 추론.

2. 동작 전문가(Action Expert) – 움직임 생성기
* 확산 변환기(DiT)를 기반으로 합니다.
* 한 번에 하나의 행동을 생성하지 않고, 흐름 매칭을 통해 연속적인 동작 시퀀스를 형성해 부드러움과 정밀함을 보장합니다.

이해력 손실 없이 학습
전통적 VLM은 물리적 과제 학습 중 일부 인지 능력을 잃습니다. 샤오미는 멀티모달 데이터(이미지 + 텍스트)와 동작 데이터를 동시에 훈련시켜 이 문제를 해결했습니다. 학습 과정은 여러 단계로 구성됩니다:

1. 행동 제안 – VLM이 이미지에 대한 가능한 행동 분포를 예측하고 내부 표현을 실제 작업과 동기화합니다.
2. 이후 VLM은 “비활성” 상태가 되고, DiT는 노이즈에서 정확한 시퀀스를 생성하도록 별도로 훈련됩니다. 이는 핵심 특징에 의존하며 언어 토큰 대신 사용됩니다.

지연 최소화
모델 예측과 로봇 실제 동작 사이의 지연을 없애기 위해 비동기 출력을 사용합니다: AI 계산과 로봇 행동이 분리되어, 추가 계산이 필요할 때도 로봇이 끊임없이 움직일 수 있습니다.

* Clean Action Prefix – 이전에 예측된 행동을 반환하는 방법으로 부드러운 전환을 보장합니다.
* 주의 마스크는 현재 시각 시퀀스에 집중하고 과거 상태를 무시하여, 환경 변화에 대한 로봇 반응성을 높입니다.

결과
LIBERO, CALVIN 및 SimplerEnv와 같은 시뮬레이션 환경에서 Xiaomi‑Robotics‑0은 약 30개의 경쟁자를 앞섰습니다. 두 개의 조작기를 갖춘 실제 로봇에서는 수건 접기, 구성품 분해 등 복잡한 과제를 성공적으로 수행했습니다. 로봇은 손과 눈의 안정적인 협응을 보여주며 다양한 시나리오에서 물체를 효율적으로 다루었습니다.

따라서 샤오미는 제품 포트폴리오를 확장할 뿐만 아니라, 로봇의 “물리적 인텔리전스” 연구에 대한 기반을 마련했습니다

샤오미는 시각 인식, 음성 및 로봇 제어를 결합한 47억 개의 매개변수를 가진 AI 모델을 개발했습니다

Related news

인공지능은 희귀하고 드물게 사용되는 언어 연구에서 성과를 입증했다

티너와 다른 서비스들은 실제 사용자를 확인하는 절차를 도입할 것이며, 이는 암호화폐 영역을 넘어서는 것이라고 World Altman이 발표했습니다

마이크로소프트 엣지(Edge)는 이제 안드로이드에서 유튜브 동영상을 백그라운드에서도 재생할 수 있어 이전 제한을 우회합니다

애플‑카는 이렇게 보일 수 있습니다: 페라리(Ferrari)가 전기차 루스(Luce)의 내부를 선보이며, 이는 조니아이브(Joni Aiv)가 설계했습니다

댓글 (0)

댓글을 남기려면 로그인