오마이뉴스

피 튀기는 중국 로봇 3파전, 이 회사의 전략에 주목하는 이유

휴머노이드 로봇 업계에는 정제된 데이터만 학습시켜야 로봇이 똑똑해진다는 상식이 있습니다. 쓸모없는 데이터, 저화질 영상, 라벨 없는 기록은 버려야 했습니다. 그런데 2026년 4월 게임이 법칙이 바뀌었습니다. 갤럭시 제너럴(银河通用, Galbot)이 베이징대·칭화대 연구팀과 공동으로 개발한 LDA-1B(Latent Dynamics Action Model, 잠재 동역학 행동 모델)가 로봇공학 최고 권위 학회 RSS(Robotics: Science and Systems) 2026에 정식 채택됐습니다. 엔비디아가 함께 참여한 점도 주목할 만합니다. 연구팀은 저품질 데이터를 30% 추가했더니 오히려 작업 성공률이 10% 상승했다는 결과를 발표했습니다. 딥시크가 적은 비용으로 뛰어난 성능을 증명했다면 피지컬 AI에서 갤럭시 제너럴은 버려진 데이터로 더 나은 성능을 증명했습니다. 1. 갤럭시 제너럴의 독보적 경쟁력 2026년 현재 중국 휴머노이드 로봇 시장은 뚜렷한 3파전 구도입니다. 유니트리(Unitree)는 백덤블링 등 모션 제어(Motion Control) 분야의 독보적 기술력으로 2025년 글로벌 출하량 1위(5,500대 이상)를 기록했습니다. 애지봇(Agibot)은 2025년 출하량 5,168대로 시장 점유율 39%를 차지하며 연 매출 10억 5,000만 위안(한화 약 2,299억 원)을 달성하며 가장 빠른 상용화 속도를 보여주고 있습니다. 그런데 갤럭시 제너럴은 이들과 전혀 다른 전략 즉 피지컬 AI모델 중심으로 발전 중입니다. 2025년 출하량은 약 1,200대로 두 회사에 못 미치지만 기업가치는 200억 위안(한화 약 4조 3,800억 원)으로 유니트리(127억 위안)와 애지봇(150억 위안)을 크게 웃돕니다. 창업 3년 만에 누적 69억 6,000만 위안(한화 약 1조 5,262억 원)을 유치했습니다. 중국의 투자 시장은 이제 로봇의 몸체가 아닌 두뇌에 가치를 높이 평가하고 있는 것입니다. 갤럭시 제너럴 창업자 왕허(王鹤, Wang He)는 1992년생입니다. 칭화대 전자공학과를 졸업하고 스탠퍼드대에서 박사를 받았습니다. 귀국 후 베이징대 조교수·박사지도교수로 재직하며 2023년 갤럭시 제너럴을 창업했습니다. 그는 "로봇의 궁극적 목표는 볼 수 있고 이해할 수 있고 도울 수 있는 가족의 새 구성원이 되는 것"이라고 말합니다. 2. LDA-1B : 버려진 데이터가 자산이 되는 방식 기존 피지컬 AI의 주류 접근법은 두 갈래였습니다. 첫 번째는 VLA(Vision-Language-Action)계열입니다. 피지컬 인텔리전스(Physical Intelligence)의 π 시리즈가 대표적입니다. 보고 들은 정보를 즉시 행동으로 변환합니다. 빠르지만 중력·마찰·무게중심 같은 물리적 제약을 내재적으로 이해하지 못합니다. 엔비디아(NVIDIA) GR00T N1.6·N1.7도 VLA 모델입니다. 시각·언어 정보를 행동으로 변환하되 Cosmos 월드 모델을 두뇌로 활용해 두 접근법을 융합하는 방향으로 진화하고 있습니다. 두 번째는 월드 모델(World Model) 계열입니다. 물리 법칙과 3D 공간을 이해하는 것이 핵심입니다. 엔비디아의 Cosmos, 구글 딥마인드의 Genie 3, 그리고 AI의 대모 리페이페이(Fei-Fei Li) 스탠퍼드 교수가 창업한 월드랩스(World Labs)가 이 방향을 주도하고 있습니다. 월드랩스는 2026년 1월 World API를 출시하고 엔비디아·AMD로부터 10억 달러(한화 약 1조 3,800억 원) 투자를 유치하며 공간 지능(Spatial Intelligence)의 상업화를 선언했습니다. 메타를 퇴사한 얀 르쿤(Yann LeCun)도 AMI 랩스를 창업하며 이 방향의 발전에 기여하고 있습니다. 그런데 두 접근법의 공통 난제는 데이터 장벽입니다. 둘 다 고품질 전문가 시연 데이터만 선별적으로 학습하고 저품질 데이터와 라벨 없는 영상은 버립니다. LDA-1B는 바로 이 지점에서 게임의 규칙을 바꿉니다. WAM(World-Action Model) 프레임워크는 VLA와 월드 모델의 이분법을 단일 잠재 공간(latent space) 안에서 융합합니다. 행동 정책(Action Policy), 순방향 동역학(Forward Dynamics), 역방향 동역학(Inverse Dynamics), 시각 예측(Visual Forecasting) 네 가지 임무를 하나의 네트워크에서 동시에 학습합니다. 중요한 혁신은 세 가지입니다. 전체 내용보기

Go to News Site