최초입력 2025.09.21 14:27:37
네이버랩스 유럽의 ‘더스터’ 후속 연구 세계 최고 컴퓨터 비전 학회서 5편 채택 정적 장면 넘어 인체·손동작까지 3D 복원 단일 신경망으로 수십 배 빠른 속도 달성 네이버클라우드 AI 기술도 10편 채택
사진 몇 장으로 3차원 공간을 구성하는 네이버의 공간 인공지능(AI) 기술이 이제 사람과 사물까지 정교하게 구성할 수 있는 수준으로 발전했다. 메타, 구글, 엔비디아 등 글로벌 빅테크 기업의 주목을 받은 네이버랩스 ‘더스터(DUSt3R)’의 새 후속 연구들이 세계 최고 권위의 컴퓨터 비전 학회에 잇달아 채택되는 성과를 거뒀다.
21일 네이버와 정보기술(IT) 업계에 따르면 네이버랩스 유럽의 공간지능 분야 논문 5개가 다음 달 미국 하와이에서 열리는 세계 최고 권위의 컴퓨터 비전 학회인 ICCV 2025(International Conference on Computer Vision)에서 채택됐다.
지난해 6월 CVPR(국제 컴퓨터 비전학회) 2024에서 발표됐던 더스터는 사진 몇 장만으로 복잡한 현실 공간을 빠르고 정밀하게 3차원으로 복원하는 AI 기술이다. 관련 논문은 공개 1년 만에 500회 이상 인용됐으며 메타, 구글 딥마인드, 엔비디아 등 글로벌 빅테크 기업들의 후속 연구로 이어졌다는 사실이 알려지며 화제를 모은 바 있다.
이번에 채택된 논문들은 햄스터(HAMSt3R), 팬스터(PanSt3R), 호스터(HOSt3R) 등의 이름으로 더스터의 후속 연구다.
더스터의 3D 재구성 기술은 건물이나 거리 등 정적 장면에 적합해 관절을 가진 인체나 움직이는 대상에는 한계가 있었다. 햄스터는 이 문제 해결에 주력한 것으로, 인체 구조 이해, 사람 구분, 자세와 깊이 추정 등 사람 중심의 인식 기술을 통합했다. 이를 통해 복잡한 최적화 과정 없이도 사진 몇 장 만으로 사람과 주변 환경을 3D 구현할 수 있도록 했다.
또 다른 후속 연구인 팬스터는 구조와 사물을 동시에 빠르게 인식하는데 특화된 기술이다. 기존 방식은 사진마다 사물을 구분한 뒤 그 결과를 장면의 3D 구조에 맞춰 최적화하는 복잡한 과정을 거쳐야 했지만, 팬스터는 단일 신경망을 통한 한 번의 처리로 3D 장면의 구조와 사물 구분을 동시에 수행한다. 이를 통해 기존보다 수십 배 빠른 속도를 구현하며, 여러 벤치마크에서 최신 성능을 달성했다.
호스터는 손과 물체가 상호작용하는 움직임에 초점을 맞춘 기술로, 기존 방법들이 사전에 알려진 물체에서만 작동하는 반면 호스터는 임의의 물체에도 적용 가능해 활용 범위를 크게 넓혔다.
이 밖에도 네이버랩스 유럽과 옥스퍼드대 등 협력 기관이 공동 개발한 루드빅(LUDVIG), 지오4D(Geo4D) 논문도 ICCV 2025도 나란히 채택됐다. 루드빅은 복잡한 학습 없이도 2D 이미지 정보를 3D로 옮겨 활용할 수 있는 간단한 방법을 제시했으며, 팬스터 연구에도 적용됐다. 지오4D는 움직이는 장면을 정밀하게 3D로 복원하는 새로운 접근법이다.
이 같은 네이버의 공간 AI 기술은 자사 로봇 위치 측정 연구에도 활용되고 있다. 특히 네이버랩스는 로봇의 위치와 이동 경로를 파악해 주행을 지원하는 인텔리전스 시스템 ‘아크 아이(ARC Eye)’ 솔루션을 고도화하는 과정에서 더스터를 적극 활용하고 있다. 아직 외부 적용 사례는 없지만, 향후 인테리어 조감도 제작과 유적지 복원 등 다양한 분야에서 활용될 전망이다.
프랑스 그르노블에 위치한 네이버랩스 유럽은 유럽 최대 규모 AI 연구소로, 네이버의 미래 기술을 선행 연구하는 글로벌 연구개발(R&D) 거점 역할을 하고 있는 곳이다. 네이버랩스 유럽은 현재까지 누적 250여 건의 특허를 출원했으며, 그중 파운데이션 모델 관련 특허만 14건에 달한다. 네이버랩스 전체의 누적 특허 출원 건수는 지난달 기준 1200여 건이다.
네이버랩스 관계자는 “네이버랩스의 공간지능 기술은 컴퓨터 비전 분야 세계적 학회에서 성과를 올리며 글로벌 기술 리더십을 강화하고 있다”며 “네이버 서비스 플랫폼 확장과 다양한 미래 산업에서 새로운 가능성을 만들어내는 기반이 될 것”이라고 말했다.
한편 생성형 AI 분야 연구·개발을 이끌고 있는 네이버 클라우드도 총 10편의 논문이 ICCV 2025에 채택되는 성과를 거뒀다. 언어와 모션을 통합한 AI 모델로 다중 인물의 대화·움직임을 이해·생성하는 새로운 방법과, 이미지 세부 요소를 정밀 하게 분리·복원하는 모델을 제안한 연구 등이 대표적이다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]