![V-슬롯사이트사이트가 차량 환경을 분석하고 있는 모습 [사진=Meta]](https://cdn.fortunekorea.co.kr/news/photo/202506/48505_41763_1753.jpg)
메타(Meta)가 물리적 세계를 이해하고 예측하는 것을 목표로 하는 새로운 AI 모델 ‘V-슬롯사이트사이트 2’를 11일(현지 시간) 공개했다. 12억 개의 파라미터를 갖춘 이 모델은, AI가 인간처럼 관찰을 통해 세상이 작동하는 원리를 내재화하는 ‘월드 모델(World Model)’ 접근법을 기반으로 한다. 이는 얀 르쿤 메타 AI 수석 과학자가 강조해 온 방식으로, 텍스트 데이터 학습 중심의 대규모 언어 모델(LLM)과 다른 연구 경로를 모색하는 시도다. 메타는 V-슬롯사이트사이트 2가 사전 훈련(pre-training) 데이터에 없던 새로운 환경에서 로봇으로 낯선 물체를 집어 옮기는 복잡한 작업을 대량의 추가 데이터 없이 65∼80%의 성공률로 해내는 데 성공했다고 밝혔다.
“AI, 글만 읽어선 똑똑해질 수 없다”…르쿤의 비판과 대안
최근 AI 분야의 성장세는 LLM 기술이 주도하고 있으나, 일각에서는 근본적인 한계에 대한 지적이 제기된다. 르쿤 수석과학자는 LLM 중심의 접근법에 꾸준히 회의적인 시각을 드러내 왔다. 그는 지난 3월 엔비디아의 GTC 2025 컨퍼런스에서 “솔직히 LLM에는 더 이상 큰 관심이 없다”라며 “이제 LLM은 산업 제품 담당자들의 손에 넘어가 점진적 개선만 이뤄지고 있을 뿐”이라고 평가했다. 이어 르쿤 수석과학자는 “기계가 어떻게 물리 세계를 이해하고, 지속적인 기억을 가지며, 진정한 의미에서 추론하고 계획슬롯사이트사이트가 슬롯사이트사이트 더 흥미로운 질문들이 있다”고 강조했다.
그가 지적슬롯사이트사이트 LLM의 근본적 한계는 텍스트라는 이산적(discrete) 정보에 갇혀있다는 점이다. LLM이 예측슬롯사이트사이트 ‘토큰’은 약 10만 개 내외의 한정된 어휘 사전 중 하나를 고르는 문제로, 확률 분포를 통해 처리할 수 있다. 하지만 현실 세계는 영상과 같이 고차원적이고 연속적인 데이터로 이루어져 있다. LLM의 방식으로는 효과적으로 모델링하기 어렵다는 것이다.
그는 “카메라를 움직이며 방을 찍다가 멈춘 뒤 다음 장면을 예측하라고 한다면, AI가 방의 전반적인 모습은 예측할 수 있어도 그 안에 있는 사람 한 명 한 명의 얼굴까지 정확히 그려내는 것은 불가능하다”고 설명한다. 이처럼 세상에는 예측 불가능한 세부 정보가 너무나 많기에, 픽셀 단위로 영상을 완벽히 재현하려는 생성 모델 방식은 자원을 낭비할 뿐이라고 지적한다.
르쿤 수석과학자는 인간의 학습 과정과 LLM 방식을 비교해 설명한 바 있다. 그는 “네 살배기 아이가 시각을 통해 4년간 받아들이는 정보량(약 10¹⁴ 바이트)은, 현재 가장 큰 LLM이 학습슬롯사이트사이트 텍스트 데이터 총량을 인간이 40만 년간 읽어야 슬롯사이트사이트 양과 맞먹는다”며 “텍스트만으로는 결코 인간 수준의 지능에 도달할 수 없다”고 단언했다. 아이들은 명시적인 지시 없이 세상을 관찰슬롯사이트사이트 것만으로 ‘공을 놓으면 떨어진다’와 같은 물리적 상식을 습득한다는 것이다.
메타가 지난 11일 공개한 V-슬롯사이트사이트 2는 르쿤 수석과학자의 고민이 담긴 결과물이다. 인간처럼 관찰을 통해 세상이 작동하는 방식에 대한 내적 모델을 구축함으로써, AI가 특정 행동의 결과를 미리 시뮬레이션하고 목표 달성을 위한 최적의 행동 순서를 계획할 수 있도록 하는 것이 핵심 목표다. 이는 심리학자 대니얼 카너먼이 제시한 ‘시스템 1’(빠르고 직관적 사고)과 ‘시스템 2’(느리고 논리적 사고) 개념과도 맞닿아 있다. 르쿤 수석과학자는 LLM이 시스템 1에 가깝다고 보며, 진정한 추론과 계획을 위해서는 월드 모델 기반의 시스템 2 역량이 필수적이라고 주장한다.
![얀 슬롯사이트사이트 메타 AI 수석과학자 [사진=Meta]](https://cdn.fortunekorea.co.kr/news/photo/202506/48505_41764_1822.jpg)
있는 그대로를 넘어 학습하기
V-슬롯사이트사이트 2의 핵심 기술은 ‘결합 임베딩 예측 아키텍처(슬롯사이트사이트, Joint Embedding Predictive Architecture)’다. 이 구조는 기존 생성형 AI처럼 영상 속 모든 픽셀을 학습하려 하는 대신, 영상의 일부(컨텍스트)를 보고 가려진 다른 부분을 예측하도록 설계됐다. 이는 AI가 머리카락 한 올이나 풀잎 하나 같은 무의미한 디테일 보다, “차가 움직인다” 또는 “사람이 걷는다”와 같은 개념(semantics)을 학습하도록 유도한다.
V-슬롯사이트사이트 2는 비전 트랜스포머(ViT)를 기반으로 하는 인코더(Encoder)와 예측기(Predictor)라는 두 가지 주요 구성요소로 이루어져 있다. 인코더는 원본 영상을 받아 유용한 의미 정보가 담긴 임베딩(embedding)으로 변환한다. 예측기는 인코더가 제공한 임베딩을 바탕으로 영상의 다른 부분의 임베딩을 예측한다. 이 과정에서 ‘마스크-디노이징(mask-denoising)’이라는 자기지도학습(SSL) 목표를 사용한다. 영상의 일부를 무작위로 가린 뒤 모델이 그 부분을 추상적 표현 공간에서 채워 넣도록 훈련하는 방식이다.
메타는 V-슬롯사이트사이트 2를 개발하는 과정에서 체급을 키웠다. 훈련 데이터는 200만 개에서 2200만 개 영상으로 10배 이상 늘렸다. 모델 크기는 3억 개에서 12억 개 파라미터로 4배 늘렸다. 또한 훈련 효율을 높이기 위해 저해상도 영상으로 초기 훈련을 진행한 뒤 점진적으로 고해상도, 장시간 영상으로 전환하는 ‘점진적 해상도 훈련’ 전략을 도입했다.
메타에 따르면, V-슬롯사이트사이트 2는 여러 표준 벤치마크에서 유의미한 결과를 보였다. V-슬롯사이트사이트 2는 영상 속 미세한 움직임 이해 능력을 측정하는 ‘Something-Something v2’ 벤치마크에서 77.3%의 높은 정확도를 기록했으며, 영상 속 인간의 다음 행동을 1초 먼저 예측하는 ‘Epic-Kitchens-100’ 벤치마크에서는 기존 최고 모델보다 44% 향상된 39.7의 재현율을 보였다. 또한 LLM과 결합했을 때는 물리적, 시간적 추론을 요구하는 다수의 영상 질의응답(Video QA) 벤치마크(PerceptionTest 84.0%, TempCompass 76.9%)에서도 최고 수준의 성능을 보였다.
AI를 활용한 로봇 제어 분야에서도 성과가 나왔다. 연구팀은 사전 학습된 V-슬롯사이트사이트 2에 62시간 미만의 소규모 로봇 행동 데이터(Droid 데이터셋)를 추가 학습시켜 행동 예측이 가능한 ‘V-슬롯사이트사이트 2-AC’를 만들었다. 이를 두 곳의 다른 실험실에 있는 프랑카(Franka) 로봇 팔에 적용하여, 목표 이미지를 제공하고 행동을 계획하게 했다. 로봇은 모델 예측 제어(MPC) 방식을 통해 매 순간 행동의 결과를 시뮬레이션하고 최적의 경로를 찾아냈다. 그 결과, 훈련 데이터에 없던 새로운 물체를 새로운 환경에서 집어 원하는 위치로 옮기는 ‘픽앤플레이스(pick-and-place)’ 작업을 65%에서 80% 사이의 성공률로 수행했다. 방대한 로봇 전용 훈련 데이터나 보상 함수 없이도 AI가 물리적 세계에서 지능적으로 행동할 수 있음을 입증한 것이다.

르쿤의 AI가 지닌 한계점
V-슬롯사이트사이트 2는 단순히 성능 좋은 모델 하나가 아니라, 르쿤 수석과학자는 제시하는 ‘고등 기계 지능(AMI, Advanced Machine Intelligence)’으로 가는 길의 중요한 이정표다. 그는 현재 AI가 특정 작업에 국한된 지능을 넘어, 다양한 상황에 적응하고 스스로 학습하는 범용성을 갖춰야 한다고 본다.
그럼에도 V-슬롯사이트사이트 2는 명확한 한계와 과제도 안고 있다. 메타 연구팀에 따르면 V-슬롯사이트사이트 2는 긴 시간 동안 이어지는 복잡한 작업을 수행하는 데 어려움을 겪고 있다. 현재 V-슬롯사이트사이트 2-AC를 이용한 로봇 작업은 ‘물건을 집는다’, ‘목표 지점 근처로 옮긴다’와 같은 여러 개의 중간 목표 이미지를 순차적으로 제공해야만 적절히 수행할 수 있다. 중간 목표 없이 최종 목표만으로 복잡한 작업을 한 번에 계획하는 능력은 아직 부족하다. 이는 예측이 길어질수록 오차가 누적되는 문제와, 계획의 탐색 공간이 기하급수적으로 커지는 계산적 어려움 때문이다.
또한 목표를 지시할 수 있는 방식이 제한적이다. 현 시점에서 작업 목표를 반드시 이미지 형태로 제공해야 한다는 제약이 있다. “테이블 위 파란 컵을 선반으로 옮겨줘”와 같이 자연어로 과업을 지시슬롯사이트사이트 기능은 아직 구현되지 않았다. 이를 위해서는 월드 모델과 언어 모델을 효과적으로 결합슬롯사이트사이트 추가 연구가 필요하다.
동시에 물리적 환경 변화에 민감하게 반응한다. 로봇 실험에서 V-슬롯사이트사이트 2-AC는 카메라의 위치와 각도에 따라 성능이 영향을 받는 모습을 보였다. 이는 모델이 카메라의 좌표계를 암묵적으로 학습하기 때문으로 분석된다. 카메라 위치가 바뀌면 행동 제어에 오류가 발생할 수 있는 것이다.
메타는 이런 한계를 극복하기 위해 계층적(hierarchical) 모델링, 시청각과 촉각 등 다양한 감각을 통합하는 다중 모드(multimodal) 학습 등을 향후 연구 방향으로 제시했다. 이와 함께 V-슬롯사이트사이트 2 모델과 관련 벤치마크(IntPhys 2, MVPBench, CausalVQA)를 오픈소스로 공개하여 학계와 산업계의 공동 연구를 촉진할 계획이라고 밝혔다. 이는 특정 기업이 기술을 독점하기보다, 개방적인 협력을 통해 AI 분야의 난제를 함께 풀어가야 한다는 철학이 반영된 결정으로 풀이된다.
/ 육지훈 기자 editor@popsci.co.kr