몸을 얻은 AI, 진짜 퀀텀점프가 시작됐다

AI가 텍스트와 이미지를 이해하는 수준을 넘어 물리적 세계에서 스스로 판단하고 행동하는 '피지컬 AI' 시대로 진화하고 있습니다.
센서, 액추에이터, VLA 두뇌 모델, 실시간 제어망을 결합해 로봇이 행동 전 결과를 시뮬레이션하는 '월드 모델' 단계로 발전 중입니다.
과거 스마트폰 시장처럼 로봇의 하드웨어와 AI 두뇌(OS)를 둘러싼 빅테크 기업들의 패권 경쟁이 본격화될 전망입니다.

{img}

최근 인공지능 업계에서 가장 뜨거운 화두는 단연 '몸을 가진 AI'입니다. 지난주 구글 딥마인드가 발표한 제미나이 로보틱스 1.6 업데이트는 AI가 단순히 모니터 속에서 텍스트를 생성하는 것을 넘어, 물리적 세계에서 스스로 판단하고 행동하는 피지컬 AI(Physical AI) 시대가 코앞에 왔음을 알리는 신호탄이었습니다. 생각만 하던 AI가 현실의 몸을 얻으면서 산업 전반에 엄청난 지각변동이 일어나고 있습니다.

안녕하세요, IT 커뮤니케이터 김덕진 소장입니다. 제가 볼 때 지금의 AI 발전은 단순한 기술 업그레이드가 아니라, 진짜로 세상을 바꿀 퀀텀점프의 시기에 진입했습니다. 오늘은 챗GPT 너머의 미래, 피지컬 AI가 도대체 무엇이고 빅테크들은 지금 어떤 미래를 준비하고 있는지 직관적으로 풀어드리겠습니다.

스마트폰 화면을 뚫고 나온 AI, 피지컬 AI란 무엇인가

여기서 제일 궁금한 게 있죠. 피지컬 AI라고 하면 보통 사람과 닮은 휴머노이드 로봇만 떠올리실 텐데, 실은 훨씬 더 넓은 개념입니다. 피지컬 AI는 물리적 환경 자체를 인식하고, 판단하고, 제어해서 연결하는 모든 상호작용 시스템을 포괄합니다.

{img}

[출처] 김덕진의 AI디아 제공 영상 · 03:57

크게 네 가지로 나눌 수 있습니다. 병원이나 공항을 돌아다니는 자율주행 로봇 같은 이동 기반, 공장의 로봇 팔이나 수술 보조 로봇 같은 조작 기반, 풍력 터빈이나 송유관을 감지하는 드론 형태의 관측 기반, 그리고 공간과 설비를 통째로 연결하는 스마트 빌딩 같은 운영 통합 기반입니다.

과거의 로봇이 정해진 동선에서 문을 열거나 사진을 찍는 단순 반복 작업에 머물렀다면, 피지컬 AI가 탑재된 로봇은 완전히 다릅니다. 예를 들어 공장을 순찰하는 로봇 강아지가 수백 개의 아날로그 계기판을 '읽고', 현재 수치가 위험 신호인지 스스로 판단해 관리자에게 알람을 보냅니다. 과거에는 사람이 일일이 점검하며 야근해야 했던 복잡한 현장 관리가, 상황을 이해하고 실행하는 AI 덕분에 획기적으로 자동화되는 것입니다.

피지컬 AI를 완성하는 4가지 핵심 감각과 진화 단계

이런 피지컬 AI가 제대로 작동하려면 사람의 몸처럼 네 가지 핵심 요소가 유기적으로 결합되어야 합니다. 첫째는 눈과 귀 역할을 하는 센서와 비전 시스템입니다. 단순한 3D 공간 인식을 넘어 물체의 단단함이나 미끄러움까지 파악하죠. 둘째는 손과 발 역할을 하는 모터와 관절, 즉 액추에이터입니다. 셋째는 피지컬 AI의 두뇌 역할을 하는 로봇 파운데이션 모델(VLA)이며, 마지막 넷째는 반사신경처럼 컵이 미끄러질 때 즉각 힘을 조절하게 해주는 실시간 제어 네트워크입니다.

{img}

[출처] 김덕진의 AI디아 제공 영상 · 10:32

특히 우리가 주목해야 할 것은 AI 두뇌의 진화입니다. 초기 AI가 입과 귀만 있는 텍스트 모델(LLM)이었다면, 이후 눈을 가진 비전 모델(VLM)로 발전했습니다. 그리고 지금은 시각, 언어, 행동을 동시에 처리하는 VLA(Vision, Language, Action) 모델의 단계에 진입했습니다.

더 놀라운 것은 그다음 단계인 월드 모델(World Model)입니다. AI가 실제 행동을 하기 전에 뇌 속에서 물리 법칙을 시뮬레이션하는 겁니다. '내가 이 컵을 이렇게 잡으면 물이 쏟아지겠네?'라는 상황을 미리 영상처럼 상상해 보고 최적의 행동을 결정하는 수준까지 올라오고 있습니다.

구글 vs 엔비디아, 빅테크는 지금 어떻게 싸우고 있나

현재 피지컬 AI 시장을 주도하는 구글과 엔비디아의 전략을 보면 접근 방식이 상당히 다릅니다. 구글은 AI가 스스로 대안을 찾는 추론 능력과 사고의 확장에 집중하고 있습니다. 예를 들어 로봇에게 "망치로 못을 박아줘"라고 했는데 망치가 없다면, 주변에 있는 돌을 보고 "저 돌을 망치 대신 쓰면 되겠네"라고 스스로 판단하게 만드는 식입니다.

반면 엔비디아는 압도적인 인프라를 바탕으로 데이터 생성과 실행의 성공률을 높이는 데 사활을 걸고 있습니다. 로봇이 처음 보는 환경에서 작업할 때 실패하지 않도록, 가상 환경에서 시뮬레이션 데이터를 엄청나게 '뻥튀기'하여 학습시키는 방식입니다.

여기에 더해 최근 오픈AI의 투자를 받은 노르웨이 기업 '원엑스(1X)'의 행보도 무궁무진할 것 같습니다. 이들은 로봇에게 명령을 내리면 로봇이 머릿속에서 '자신이 행동하는 비디오 영상'을 먼저 생성한 뒤, 그 영상의 픽셀 움직임을 따라 실제 손발을 움직이는 완전히 새로운 구조를 선보였습니다. 학습 데이터가 부족한 낯선 환경에서도 유연하게 대처할 수 있는 혁신적인 방식입니다.

로봇계의 '안드로이드' 패권은 누가 쥐게 될까

이게 결국에는 과거 스마트폰 시장의 역사와 겹쳐 보입니다. 스마트폰 하드웨어를 잘 만드는 기업들이 있었지만, 결국 시장의 패권과 막대한 부는 안드로이드나 iOS 같은 '운영체제(OS)'를 장악한 미국 빅테크 기업들이 가져갔습니다.

{img}

[출처] 김덕진의 AI디아 제공 영상 · 18:35

피지컬 AI 시장도 마찬가지 흐름으로 갈 확률이 높습니다. 로봇의 관절을 만들고 몸체를 조립하는 하드웨어 영역과, 그 로봇을 통제하는 AI 두뇌(소프트웨어) 영역이 나뉘고 있는 거죠. 현재 미국의 빅테크들은 이 '로봇의 범용 뇌'를 장악하기 위해 천문학적인 투자를 단행하고 있습니다.

우리나라 대기업들도 이 흐름을 정확히 읽고 있습니다. 최근 삼성과 LG가 로봇의 범용 뇌를 만드는 미국의 스킬드 AI(Skild AI) 같은 스타트업에 대규모 전략 투자를 진행한 것도, 단순히 하드웨어 제조 하청으로 전락하지 않고 우리만의 AI 두뇌를 확보하기 위한 치열한 움직임입니다. 단순한 로봇의 등장이 아니라, 현실 세계의 물리적 지능을 지배하려는 거대한 플랫폼 전쟁이 이미 시작되었습니다.

FAQ

피지컬 AI는 휴머노이드 로봇만 뜻하는 건가요?

아닙니다. 피지컬 AI는 사람을 닮은 휴머노이드뿐만 아니라 자율주행차, 드론, 공장 자동화 로봇, 그리고 건물 내 센서와 연동되는 스마트 빌딩 시스템까지 '물리적 환경을 인식하고 제어하는 모든 상호작용 시스템'을 포괄하는 넓은 개념입니다.

VLA 모델이 기존 AI와 다른 점은 무엇인가요?

기존 LLM이 텍스트를, VLM이 시각 정보를 처리했다면, VLA(Vision, Language, Action) 모델은 시각과 언어를 이해한 뒤 실제 물리적인 행동(Action)까지 실시간으로 결정하고 실행하는 통합 두뇌 역할을 합니다.

구글과 엔비디아의 피지컬 AI 전략은 어떻게 다른가요?

구글은 AI가 상황을 인지하고 스스로 대안을 찾는 '추론과 월드 모델' 중심의 소프트웨어적 진화에 집중하는 반면, 엔비디아는 시뮬레이션을 통한 가상 데이터 생성과 행동 성공률을 높이는 '실행력'에 방점을 두고 있습니다.

원본 영상 보기

# VLA

# 구글제미나이

# 로봇산업

# 빅테크

# 스마트빌딩

# 엔비디아

# 월드모델

# 인공지능

# 피지컬AI

# 휴머노이드