- 화면 속 텍스트에 갇혀 있던 AI가 현실 세계를 인지하고 직접 행동하는 '피지컬 AI'로 빠르게 진화하고 있습니다.
- 엔비디아의 시뮬레이션 플랫폼과 테슬라의 대규모 주행 데이터 수집 등 가상과 현실을 잇는 기술적 돌파구가 마련되고 있습니다.
- 도메인 특화 물리 데이터가 핵심 경쟁력으로 부상함에 따라, 제조 강국인 한국에게도 새로운 혁신의 기회가 열릴 것입니다.

혁신 전파사. 오늘의 주제는 피지컬 AI입니다. 스마트폰이나 모니터 화면 속에서 텍스트로 답을 생성하던 인공지능이 이제 현실 세계를 직접 보고 이해하며 움직이는 방향으로 무섭게 진화하고 있습니다. 젠슨 황 엔비디아 CEO가 피지컬 AI라는 화두를 던진 지 불과 1년 남짓한 시간 동안, 이 기술은 실험실을 넘어 우리의 실제 삶과 산업 현장을 파고들기 시작했습니다.
1. 1년 만에 인간을 추월하다: 베이징 휴머노이드 마라톤이 보여준 현실
최근 베이징에서 열린 제2회 휴머노이드 하프마라톤 대회는 피지컬 AI의 발전 속도가 얼마나 무서운지 단적으로 보여주는 상징적인 사건이었습니다. 작년 1회 대회 때는 겨우 21대의 로봇이 참가해 대부분 벽에 부딪히거나 넘어져 부서졌고, 텔레옵(원격 제어) 방식으로 겨우 6대만이 완주하는 데 그쳤습니다. 그런데 올해는 무려 다섯 배가 늘어난 105대의 휴머노이드가 참가했고, 그중 절반 이상이 완주에 성공했습니다.
놀라운 건 뭔지 아세요? 완주한 로봇의 40%가 원격 제어가 아닌 '자율주행'으로 달렸다는 점입니다. 미리 경로가 공개되지 않아 꾸불꾸불한 트랙을 로봇이 스스로 인지하고 판단하며 달려야 하는 가혹한 조건이었습니다. 게다가 올해 1등을 차지한 '안어(Honor)'의 자율주행 로봇은 무려 50분 26초라는 기록으로 결승선을 통과했습니다. 이는 같은 대회에 참가한 인간 주자의 기록(57~58분대)을 가볍게 앞지른 수치입니다. 불과 1년 사이에 텔레옵 제어에 의존하던 로봇이 인간보다 빠르게 달리는 자율주행 기술을 갖추게 된 것입니다. 이 어마어마한 도약의 배경에는 바로 피지컬 AI가 있습니다.
중국 전기차 시장에서는 지하 주차장 내 자동 주차 기능이 이미 일상적인 기술로 자리 잡았습니다.
2. 왜 지금 피지컬 AI인가: LLM의 한계를 넘는 '몸을 가진 AI'
우리가 피지컬 AI에 주목해야 하는 진짜 이유는 단순히 화면 속에서 답변을 만들어내는 거대언어모델(LLM)만으로는 현실 세계의 물리적 문제를 해결할 수 없기 때문입니다. 페이페이 리나 얀 르쿤 같은 세계적인 AI 석학들이 지적하듯이, AI의 다음 단계는 텍스트를 넘어 현실 공간에서의 '행동'으로 이어져야 합니다. 이것이 바로 '인바디드 AI(Embodied AI)', 즉 몸을 가진 AI의 개념입니다.
이미 우리 주변에는 기초적인 피지컬 AI가 작동하고 있습니다. 식당에서 음식을 나르는 서빙 로봇이나 치킨을 튀기는 로봇이 대표적이죠. 하지만 앞으로 다가올 피지컬 AI는 차원이 다릅니다. 목적지만 입력하면 처음부터 끝까지 핸들에 손 하나 대지 않고 자연스럽게 운전해 주는 테슬라의 FSD(Full Self-Driving)가 대표적인 예입니다. 미국 프레몬트 공장에서는 갓 생산된 차량이 자율주행으로 스스로 출고장까지 이동하고, 고객의 집까지 혼자 배송을 가는 실험이 이미 현실화되었습니다. 이처럼 피지컬 AI는 인구 감소와 노동력 부족이라는 인류의 거대한 난제를 해결할 유일한 열쇠로 주목받고 있습니다.
3. 현실과 가상을 잇는 기술: 월드 액션 모델과 심투리얼
그렇다면 기계가 현실 세계에서 안전하고 똑똑하게 움직이도록 만드는 동력은 무엇일까요? 가장 핵심적인 기술은 기계가 상황을 카메라로 보고 자연어 지시에 따라 행동하는 VLA(Vision-Language-Action) 모델, 그리고 나의 행동이 미래에 어떤 변화를 가져올지 예측하는 '월드 액션 모델(World Action Model)'입니다. 로봇이 와인잔을 집을 때 어디를 잡아야 깨지지 않는지 가상으로 미리 시뮬레이션해 보고 행동하는 식입니다.
이 과정에서 필수적인 기술이 바로 가상 시뮬레이션 공간에서 학습한 내용을 현실로 전이하는 '심투리얼(Sim-to-Real)'입니다. 엔비디아는 이 분야에서 독보적인 생태계를 구축하고 있습니다. 현실 세계를 물리적으로 이해하는 월드 모델 '코스모스(Cosmos)'를 기반으로, 가상 시뮬레이션 플랫폼인 '아이작 심(Isaac Sim)'에서 수백만 번의 시행착오를 거쳐 로봇을 훈련시킵니다. 그리고 이 학습의 집약체인 로봇 파운데이션 모델 '그루트(GR00T)'를 제공합니다.
사람이 원격으로 로봇을 조종하는 텔레오퍼레이션 방식은 피지컬 AI 학습을 위한 데이터를 확보하는 중요한 수단입니다.
반면에 테슬라나 중국의 샤오펑(XPENG) 같은 기업들은 엔비디아의 플랫폼에 의존하지 않고 독자적인 길을 걷고 있습니다. 자체 개발한 AI 칩을 탑재하고, 실제 도로를 달리는 수백만 대의 차량 카메라로부터 수집한 엄청난 양의 1인칭(Ego-centric) 데이터를 활용해 직접 학습시키는 전략입니다. 특히 자율주행 중 운전자가 개입하는 순간의 데이터(개입 데이터)를 예외 상황 학습용으로 환류시키는 시스템은 테슬라만의 엄청난 무기입니다.
가상 환경에서 수백만 번의 시행착오를 거쳐 학습한 데이터가 실제 로봇의 정교한 동작으로 구현됩니다.
4. 산업 현장과 도시 구조의 대전환
피지컬 AI가 본격적으로 도입되면 비즈니스 실무와 우리 삶의 형태는 완전히 다른 모습으로 재편될 것입니다. 이미 물류 및 제조 분야에서는 파괴적 혁신이 일어나고 있습니다. 1X의 가정용 로봇 '네오(Neo)'는 이미 만 대의 주문이 완판되어 가사 노동의 대체를 예고했고, '피규어 AI(Figure AI)'는 공장 택배 분류 현장에서 인턴 직원과 경쟁하며 3교대로 무려 200시간 연속 근무를 성공적으로 마쳤습니다. 비록 속도 면에서는 아직 인간 인턴이 앞섰지만, 지치지 않고 24시간 일하는 로봇의 효율성은 물류 산업의 판도를 바꿀 것입니다.
더 나아가 자율주행 기반의 로보택시가 대세가 된다면 도시의 인프라 자체가 달라집니다. 개인이 차를 소유할 필요가 줄어들고, 출퇴근 시간 외에는 차가 스스로 로보택시 영업을 뛰며 돈을 벌어다 주는 세상이 옵니다. 주차가 필요 없어지면 쇼핑몰, 아파트, 경기장 옆의 그 넓은 주차장 부지들은 전부 다른 용도로 전환되어야 할 것입니다. 직장 근처에 비싼 집값을 감수하며 살 필요도 없어지므로, 주거 패턴과 부동산 시장에도 어마어마한 변화가 수반될 수밖에 없습니다.
5. 앞으로 우리가 주목해야 할 세 가지 인사이트
오늘 저희가 전해드린 피지컬 AI의 흐름 속에는 앞으로의 미래를 준비하기 위한 굉장히 중요한 인사이트들이 담겨 있습니다. 마지막으로 이 핵심 포인트 세 가지를 정리해 드리겠습니다.
첫째, AI의 격전지가 소프트웨어에서 현실 세계로 완전히 이동하고 있습니다. 스마트폰 화면 속 앱에 갇혀 있던 인공지능이 이제는 현실의 모든 물리적 공간으로 나와 직접 몸을 움직이며 우리의 불편함을 해결해 주는 시대가 오고 있습니다.
둘째, 피지컬 AI의 '챗GPT 모멘트'가 머지않았습니다. 현재는 데이터가 부족하고 학습 모델이 완성되지 않아 어설퍼 보이지만, 시뮬레이션과 현실 데이터가 결합되어 임계점을 넘어서는 순간, 어느 날 갑자기 어제와 완전히 다른 똑똑한 로봇들이 일상으로 쏟아져 들어올 것입니다.
셋째, 최종 승부처는 파운데이션 모델 자체보다 '밀도 높은 양질의 물리 데이터'가 될 것입니다. 이미 거대 모델 경쟁은 글로벌 빅테크들이 선점했지만, 특정 산업 현장이나 제조 공정의 암묵지와 실패 데이터, 노하우를 체계화하여 양질의 데이터로 구축해 내는 기업이 피지컬 AI 시대의 새로운 키 플레이어가 될 것입니다. 이것이 바로 제조 강국인 한국에게 엄청난 기회이자 엔비디아가 끊임없이 한국에 러브콜을 보내는 진짜 이유입니다.
오늘 준비한 피지컬 AI 이야기는 여기까지입니다. 저희 혁신 전파사는 앞으로도 여러분의 삶을 바꿀 기술적 도약과 혁신 기업들의 이야기를 가장 빠르게 전달해 드리겠습니다. 오늘도 유익하셨다면 구독과 좋아요, 그리고 여러분의 소중한 의견을 댓글로 부탁드립니다. 다음에 또 멋진 혁신가들의 이야기와 함께 돌아오겠습니다. 감사합니다.
FAQ
피지컬 AI와 기존 공간 지능(Spatial AI)의 가장 큰 차이점은 무엇인가요?
공간 지능이 현실 세계를 보고 인지하며 물리적 공간의 구조를 이해하는 기술이라면, 피지컬 AI는 몸을 가진 로봇이나 자율주행차 등이 그 이해를 바탕으로 직접 물리적인 행동(Action)을 취하고 제어하는 단계까지 나아간 기술을 뜻합니다.
피지컬 AI 개발에서 현실 데이터 부족을 해결하기 위해 쓰이는 '심투리얼(Sim-to-Real)'은 무엇인가요?
현실 세계의 데이터를 직접 수집하는 데는 비용과 위험이 많이 따르기 때문에, 가상의 시뮬레이션 공간에서 로봇에게 수백만 번의 반복 학습을 시킨 뒤 그 학습된 모델을 실제 현실 로봇에 적용하는 기술적 과정을 의미합니다.
테슬라와 샤오펑 같은 기업들이 엔비디아의 솔루션을 쓰지 않는 이유는 무엇인가요?
이들은 실제 도로를 달리는 수백만 대의 차량 카메라인 에고센트릭 비디오를 통해 이미 방대한 양의 리얼월드 데이터를 직접 확보하고 있기 때문입니다. 자체 개발한 고성능 칩과 엔드투엔드 데이터 파이프라인을 구축하여 독자적인 생태계를 만드는 것이 더 빠르고 유리하다고 판단한 것입니다.

