개요

여러분은 XR 디바이스로 게임이나 다양한 콘텐츠를 즐기면서, 이 기기들이 어떻게 내 주변 환경을 인식하고, 움직임에 맞춰 화면을 자연스럽게 조정하는지 궁금해 해 보신 적 있으신가요? 예를 들어, AR 글래스를 쓰고 방 안을 걸어다니며 가상 오브젝트와 상호작용하거나, MR 헤드셋의 패스쓰루 모드를 통해 현실 공간을 보면서 가상 환경을 덧씌운 채 고개를 돌려 주변을 탐색하는 장면을 떠올려 보세요. 이러한 것들은 어떻게 가능한 것 일까요?

이를 가능하게 하는 기저에는 XR 디바이스의 3차원 공간 인지 기술이 있습니다. 이 기술의 두 가지 핵심 요소는 다음과 같습니다:

  1. 깊이 카메라 (Depth Camera): 깊이 카메라는 주변의 거리와 구조를 측정하여 XR 디바이스가 3차원 공간을 정확하게 인식할 수 있게 도와줍니다. 덕분에 가상 객체를 현실 세계의 특정 위치에 정확히 배치하거나, 실제 환경의 깊이 정보를 활용해 상호작용하는 것도 가능합니다. 예를 들어, AR 글래스를 쓰고 책상 위에 가상의 3D 모델을 올려놓고 조작할 수 있는 것이죠.
  2. VIO (Visual-Inertial Odometry): VIO는 카메라로 얻은 시각 정보와 IMU(관성 측정 장치) 데이터를 결합하여, 실시간으로 사용자의 위치와 움직임을 정밀하게 추정하는 기술입니다. 덕분에 사용자가 이동하거나 고개를 돌릴 때 디바이스가 그에 맞춰 가상 환경의 화면을 자연스럽게 조정해 줍니다. 게임 속에서 플레이어가 고개를 돌리거나 걸어다닐 때 화면이 즉각적으로 반응하는 것도 VIO 덕분이죠.

이 칼럼에서는 XR 디바이스의 핵심 기술인 '깊이 카메라'와 'VIO'를 중심으로, 어떻게 현실 세계와 가상 콘텐츠를 매끄럽게 통합해 몰입감 있는 경험을 제공하는지 살펴보겠습니다.

깊이 카메라 (Depth Camera)

깊이 카메라의 원리와 기술적 배경

깊이 카메라는 XR 디바이스에서 매우 중요한 역할을 하며, 현실 공간을 3차원적으로 이해하도록 돕습니다. 깊이 카메라의 작동 원리는 크게 패시브 스테레오(Passive Stereo), 액티브 스테레오(Active Stereo), 구조화 광(Structured Light), ToF(Time of Flight) 방식으로 나뉩니다. 각 방식은 장단점이 다르며, 다양한 XR 디바이스에서 목적에 맞게 활용됩니다.

image.png

깊이 카메라의 다양한 방식

패시브 스테레오(Passive Stereo)

패시브 스테레오 방식은 주변의 자연광을 이용하여 두 카메라 간의 시차(Disparity)를 분석해 거리 정보를 추출하는 방식입니다. 이 방식은 외부 조명이 충분할 때 높은 성능을 보이며, 조명 장치를 추가할 필요가 없어 구현 비용이 낮은 편입니다. 하지만 어두운 환경이나 텍스처가 적은 평면에서는 시차 정보를 얻기 어려워 정확도가 떨어질 수 있다는 단점이 있습니다.

액티브 스테레오(Active Stereo)

액티브 스테레오 방식은 적외선 패턴을 물체에 투사하여 두 카메라가 시차를 계산하는 방식입니다. 어두운 환경에서도 깊이 정보를 정확하게 얻을 수 있어 패시브 스테레오의 한계를 보완합니다. 또한 규칙적인 패턴을 투사하기 때문에 텍스처가 부족한 표면에서도 안정적으로 시차를 계산할 수 있습니다. 다만, 적외선 프로젝터가 필요하여 장치의 복잡성과 비용이 증가하는 단점이 있습니다. 이 방식은 패시브 스테레오에 비해 높은 정밀도를 가진 깊이값을 얻을 수 있기 때문에 XR 디바이스에서 주로 사용되는 방식입니다.

image.png

위 그림은 패시브 스테레오와 액티브 스테레오의 차이를 보여주는 그림입니다. 패시브 스테레오(a)의 경우 어두운 환경에서 시차정보를 얻기 어렵기 때문에 (c)와 같이 낮은 품질의 깊이 값이 얻어집니다. 반면에 액티브 스테레오는 (b)에서와 같이 적외선 패턴을 투사하여 두 카메라에서 이를 기반으로 시차를 계산하기 때문에 (d)와 같이 안정적으로 깊이값을 얻을 수 있습니다.

구조화 광(Structured Light)