애플은 사용자를 대신해 앱을 실행할 수 있는 자체 AI 어시스턴트를 아이폰용으로 개발 중입니다

애플은 사용자를 대신해 앱을 실행할 수 있는 자체 AI 어시스턴트를 아이폰용으로 개발 중입니다

7 hardware

애플은 사용자 인터페이스 작업을 위한 소형 로컬 AI 에이전트를 개발하고 있습니다

애플은 Ferret‑UI Lite라는 새로운 알고리즘을 개발 중이며, 이 알고리즘은 애플리케이션 인터페이스를 “이해”하고 사용자를 대신해 상호작용할 수 있지만, 모든 처리가 기기 자체에서 이루어집니다. 모델은 30억 개의 파라미터를 가지고 있으며 테스트에서는 24배 더 큰 대형 모델과 비교하거나 그 이상을 달성합니다.

프로젝트의 배경
2023년 12월, 아홉 명의 연구팀이 FERRET: Refer and Ground Anything Anywhere at Any Granularity 논문을 발표했습니다. 이 논문에서 다중 모달 언어 모델이 다양한 데이터 유형에 대해 학습하고 텍스트 설명과 이미지의 특정 부분을 연결하는 방법이 소개되었습니다.

그 이후 애플은 Ferret‑모델 라인업을 확장했습니다:

모델용도
Ferretv2향상된 기본 모델
Ferret‑UI모바일 인터페이스용 특화 MLLM
Ferret‑UI 2다중 플랫폼 지원 및 고해상도

Ferret‑UI는 특히 현대 다중 모달 대형 언어 모델(MLLM)이 UI 요소를 잘 인식하지 못한다는 문제를 해결합니다. 이 모델은 Ferret 위에 “임의 해상도”를 추가하여 이미지 세부 정보를 향상시키고 개선된 시각적 특징을 사용합니다.

새로운 성과
최근 애플은 두 가지 버전을 발표했습니다:

1. Ferret‑UI Lite – 30억 파라미터로 가벼운 모델이며 모바일 기기에서 로컬 실행에 최적화되었습니다.
2. Ferret‑UI 2 – 다중 플랫폼을 지원하고 고해상도 스크린샷을 처리할 수 있는 확장 버전입니다.

Ferret‑UI Lite가 대형 서버 기반 모델과 다른 점은 훨씬 낮은 계산 요구량에도 불구하고 경쟁력을 유지한다는 것입니다.

왜 중요한가
대부분의 기존 GUI 에이전트는 거대한 기초 모델에 기반을 두고 있습니다. 이러한 모델들은 강력한 추론 및 계획 능력 덕분에 그래픽 인터페이스 탐색에서 뛰어난 성과를 보입니다. 그러나 이들 모델은 장치에서 직접 실행하기에는 너무 무겁습니다.

Ferret‑UI Lite는 다음을 결합하여 이 문제를 해결합니다:

- 작은 LLM 학습의 핵심 구성 요소와 아이디어
- 다양한 GUI 영역에서 수집한 실제 및 합성 데이터
- 인터페이스 세분화 품질을 동적으로 프레이밍하고 최적화하는 기술
- 제어된 미세 조정과 강화 학습

결과적으로, 이 모델은 UI 요소와의 저수준 연결, 화면 상의 상황 이해, 다단계 계획 및 자기 분석에서 기존 대형 GUI 에이전트와 거의 동등하거나 그 이상을 달성합니다.

댓글 (0)

의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.

아직 댓글이 없습니다. 댓글을 남기고 의견을 공유해 주세요!

댓글을 남기려면 로그인해 주세요.

댓글을 남기려면 로그인