애플은 소형 AI 모델이 대형 경쟁자보다 이미지를 더 잘 설명하도록 훈련시켰다

애플은 소형 AI 모델이 대형 경쟁자보다 이미지를 더 잘 설명하도록 훈련시켰다

20 software

애플이 새로운 이미지 설명 기술인 “RubiCap”을 공개했습니다

애플의 과학자들은 *RubiCap*이라는 방법을 개발했으며, 이는 소형 AI 모델이 대규모 동등물보다 더 정확하고 상세한 이미지 설명을 생성할 수 있게 해줍니다.

RubiCap 작동 방식
1. 이미지 분석

자세한 텍스트를 만들기 위해 모델은 먼저 장면 안의 다양한 객체와 영역을 인식합니다. 이는 표면적인 묘사 대신 구성을 깊이 이해하도록 돕습니다.

2. 실용적 가치

이러한 기술은 자식 AI 모델 교육, 텍스트 기반 이미지 생성기 및 특수 기능(예: 시각 콘텐츠 향상)에 유용합니다.

3. 리소스 문제

상세 설명 시스템을 훈련시키는 전통적인 접근 방식은 초기 단계와 이후 강화 학습 모두에서 막대한 계산 비용이 필요합니다.

실험 방법론
- 이미지 선택 – *PixMoCap* 및 *DenseFusion‑4V‑100K* 세트에서 무작위로 50,000개의 이미지를 선정했습니다.

- 설명 생성 – 기존 컴퓨터 비전 모델을 사용했습니다: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT 및 Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, 그리고 현재 학습 중인 애플 모델들.

- 품질 평가 – Gemini 2.5 Pro가 전문가 역할을 수행했습니다: 설명을 분석하고 일치점과 오류를 찾아내며 명확한 평가 기준을 제시했습니다.

- 심사 평가 – Qwen 2.5‑7B‑Instruct 모델이 각 기준에 따라 점수를 부여하고 학습 중인 모델에 보상 신호를 생성했습니다.

결과
- 학습 중인 모델은 구체적인 피드백을 받아 “정답” 하나에 의존하지 않고도 설명 정확도를 빠르게 향상시킬 수 있었습니다.

- 최종적으로 애플은 세 개의 자체 모델을 만들었습니다: RubiCap‑2B, RubiCap‑3B 및 RubiCap‑7B(각각 20억, 30억, 70억 매개변수).

- 이미지 설명 과제 테스트에서 RubiCap은 320억과 720억 매개변수를 가진 경쟁자를 능가했습니다. 일부 경우에는 RubiCap‑3B가 RubiCap‑7B보다 더 나은 성능을 보였으며, 모델 크기가 항상 최상의 성능을 보장하지 않음을 확인시켰습니다.

이처럼 RubiCap 기술은 적은 자원과 보다 효율적인 학습으로 고품질 이미지 설명을 달성할 수 있음을 보여줍니다

댓글 (0)

의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.

아직 댓글이 없습니다. 댓글을 남기고 의견을 공유해 주세요!

댓글을 남기려면 로그인해 주세요.

댓글을 남기려면 로그인