PDP-11에서 AI 모델 실행하기: 열정가가 6 MHz CPU와 64 KB RAM을 사용했습니다
마이크로소프트 베테랑이 오래된 컴퓨터에서 트랜스포머를 동작시키는 모습을 보여준다
*데이브 플래머(Dave Plummer) – 윈도우즈 유명 개발자,*
*현대 AI 모델을 수십 년 된 장비에서도 학습할 수 있음을 증명한다.*
무엇이 이루어졌나
- 장비: PDP‑11 / 44, 47년 된 컴퓨터로 6 MHz 프로세서와 64 KB RAM을 탑재했다.
- 모델: “Attention 11” – PDP‑11 어셈블리로 Damien Buret가 만든 트랜스포머 네트워크.
- 학습 과제: 여덟 개 숫자의 역순을 만들기.
예시를 기억할 필요 없이, 순열을 뒤집는 규칙만 배워야 한다.
작동 방식
1. 초기화 – 모델은 무작위 가중치로 시작하며 정확도는 거의 제로다.
2. 학습 – 각 단계에서 정수형(8비트 고정소수점) 전방 전달과 가중치 업데이트가 수행된다.
3. 패턴 습득 – 수백 번의 반복 후, 어텐션 메커니즘이 규칙을 “발견”하고 모델은 추측에서 실제 지식으로 전환한다.
> “우리는 학습 자체의 단순한 해부학을 관찰합니다… 결국 기계는 보이지 않는 경계를 넘어선다 – 추측에서 지식으로.” – 플래머
결과
- 정확도: 역순 과제에서 100 % 달성.
- 속도: 약 350 단계의 학습, PDP‑11/44(캐시 메모리 포함)에서 약 3.5분 걸림.
현대 AI에 대한 의미
플래머는 반복적인 산술 연산과 오류 수정이라는 기초 원칙이 가장 단순한 시스템에서도 완전히 구현된다고 강조한다.
“이 오래된 기계는 신비롭게 사고하지 않는다; 몇 천 개의 숫자를 업데이트할 뿐이다. 현대 AI의 핵심은 이 과정을 확장하는 것이다.”
따라서 저자는 트랜스포머의 기본 메커니즘이 장비에 관계없이 동일하다는 것을 입증했다.
댓글 (0)
의견을 남겨 주세요. 예의를 지키고 주제에서 벗어나지 말아 주세요.
댓글을 남기려면 로그인