마이크로소프트는 텍스트, 음성 및 그래픽 생성을 위한 세 가지 새로운 내부 인공지능 모델을 출시했습니다

10.04.2026 5 hardware

마이크로소프트 AI가 세 가지 새로운 멀티모달 모델을 출시합니다

인공지능(AI) 분야에서 입지를 강화하기 위한 노력의 일환으로, 마이크로소프트 AI 연구 부서는 텍스트, 음성 및 이미지를 생성할 수 있는 자체 모델 세 개를 발표했습니다. 이 결정은 선도적인 AI 연구소와의 경쟁에 대한 대응이었습니다.

모델	용도	주요 성능
MAI‑Transcribe‑1	음성을 텍스트로 변환	25개 언어, Azure Fast보다 2.5배 빠름
MAI‑Voice‑1	오디오 트랙 생성	1초에 한 번씩 음성 설정 가능
MAI‑Image‑2	텍스트 기반 이미지 생성

프로젝트는 고급 AI 시스템 연구를 담당하는 부서인 MAI Superintelligence 팀이 개발했으며, 2025년 11월에 이사인 무스타파 수레이만(Mustafa Suleyman)이 팀에 합류했습니다.

경제적 효율성
개발자들은 구글 및 OpenAI의 유사 모델과 비교해 계산 비용을 크게 낮추는 데 중점을 두었습니다:

서비스	가격
텍스트 해독	$0.36/시간
음성 합성	100만 문자당 $22
이미지 처리	입력 토큰 100만 개당 $5; 출력 토큰 100만 개 생성 시 $33

모델은 이미 마이크로소프트 Foundry 플랫폼에 배포되었으며, MAI Playground에서 전사 및 음성 합성이 가능합니다.

OpenAI와의 파트너십
자체 솔루션 개발이 활발히 진행되는 가운데 무스타파 수레이만은 OpenAI와의 협력 의지를 확인했습니다. 마이크로소프트는 이미 130억 달러 이상을 투자했으며, 장기 계약에 따라 제품에 OpenAI 모델을 계속 활용하고, 반도체와 유사한 다각화 전략을 적용할 예정입니다.

이처럼 마이크로소프트 AI는 빠르고 경제적인 멀티모달 솔루션을 제공하면서 핵심 파트너와의 긴밀한 관계를 유지하며 AI 시장에서 입지를 강화하고 있습니다

마이크로소프트는 텍스트, 음성 및 그래픽 생성을 위한 세 가지 새로운 내부 인공지능 모델을 출시했습니다

Related news

중국은 "천군" 우주선의 승무원 교체를 한 달 연기했다. 이는 현미경 창에 균열이 발견된 이후이다

인공지능은 희귀하고 드물게 사용되는 언어 연구에서 성과를 입증했다

티너와 다른 서비스들은 실제 사용자를 확인하는 절차를 도입할 것이며, 이는 암호화폐 영역을 넘어서는 것이라고 World Altman이 발표했습니다

마이크로소프트 엣지(Edge)는 이제 안드로이드에서 유튜브 동영상을 백그라운드에서도 재생할 수 있어 이전 제한을 우회합니다

댓글 (0)

댓글을 남기려면 로그인