[AI Era] 4호. NeRF로 ‘이 광고’까지 만들었다고?
최근 AI 업계에서는 ‘Text to 3D’ 기술이 화제인데요, 말만 하면 뚝딱 3D모델링을 생성하고 3D 프린터로 뽑을 수 있는 정도의 수준은 만들어준다고 하여, 3D모델러들을 긴장시키고 있습니다.
3D의 세계는 노동 집약적이기로 유명한데요, 오늘은 AI가 어떻게 이들의 세계에 침투하고 있는지 3D Reconstruction AI기술의 발전 동향에 대해 알아보겠습니다.
1. 3D의 기초 상식
먼저 3D에 대한 기본 상식을 잠시 배우고 가겠습니다.
3D는 한마디로 입체, 쉽게는 빛반사와 색 밀도로 구성된 비주얼입니다. 컴퓨터 그래픽스(CG)에서 이 3D를 생성하기 위해서는 크게 아래의 4가지 방식으로 접근이 가능해졌는데요.
‘복셀’ 방식은 ‘볼륨’ 값을 가진 큐브 단위의 3제곱 데이터라 연산량이 너무 많아, 우리가 흔히들 ‘모델링’이라고 알고 있는 폴리곤(Polygon) 형태의 메시(Mesh) 골조에 텍스처(Texture)를 입혀 3D의 ‘표면’을 구성하는 방식이 가장 일반적으로 쓰이고 있습니다. 메시는 면을 구성하는 최소 단위인 3개의 점이 얼마나 조밀하게 구성되는가에 따라 Low Poly, High Poly로 나누어지고, 3D모델러가 한 땀 한 땀 꼭지점을 따다 보니(요즘은 폴리곤 수를 자동으로 높여 주기도 하지만) 조밀하게 나누면 나눌수록 리얼에 근접하겠지만 노동량은 엄청나죠. 그래서 영화 속 인물이나 공간 같은 정밀한 메시는 ‘스캐닝(넓은 면적은 LiDar스캐너)’의 형태로 대규모의Point Cloud를 형성해 고품질의 메시를 만들어내는 방식이 쓰이고 있습니다. 메시가 만들어졌으면 다음으로 중요한 것이 바로 빛 반사를 제어하는 ‘Texturing’. 그것도 표면의 재질에 따라 빛의 방사율을 계산해서 실제 물리 값에 근거해 붙이는 PBR(Physically Based Rendering)이라는 또 다른 세계를 알아야 3D를 제대로 이해할 수 있답니다.
최근에는 ‘딥러닝연산’으로 이미지 한장에서 어떤 오브제의 ‘다중뷰’를 생성하고, 그 다중뷰에서의 ‘빛반사와 색밀도 값’을 역추정해 공간 속에서의 오브제의 ‘360 3D 표면’을 형성해내는 기술(NeRF)이 발전하여, Text to Image to 3D, 즉 ’Text to 3D’기술이 런칭 되기에 이르렀습니다.
2. NeRF(Neural Radiance Fields)*와 영상
*오랜만에 대학시절 느꼈던 학구열을 느끼고 싶으시다면 초콜릿을 입에 물고 아주 잠시만 눌러보세요 :)
모든 연구의 모태가 되었던 2020년에 등장한 NeRF [뉴럴래디언스필드] 혹은 [너r프]라고 부르는 이 무서운 이름의 모델을 우리가 자세히 알 필요는 없지만 그래도 원리를 약간은 이해해 보려 노력하면 이런 것입니다.
- Neural : 신경망을 써서
- Radiance: 빛의 방사 특성을
- Field: 공간의 모든 지점에 대해 계산하는 함수야!
그런데 NeRF모델은 초기 멀티뷰 이미지가 다량 필요합니다. 상용화되기 위해서는 단 한 장의 이미지만으로도 이러한 멀티뷰를 구성해 내는 기술이 필요했고 이를 해결한 모델들이 Zero123와 DreamFusion방식으로 각각 탄생하게 되었습니다. 이후 수학적으로 빛반사값과 색밀도를 좀 더 쉽게 계산해 낼 수 있는 Gaussian Splatting모델도 탄생해 관련 연구가 활발히 진행되고 있습니다.
자, 이론 공부는 여기까지.
그럼 이걸 써서 뭘 할까를 고민할 차례인데요, 감독이자 아티스트인 Karen X. Cheng 등은 NeRF로 재미난 ‘영상(!)’을 만들기로 하였습니다. 왜냐하면, 연산에 의해 360의 공간이 렌더링 되는 과정 자체가 기존에는 보지 못했던 새로운 비주얼 씬을 형성한다는 사실을 깨달았기 때문이죠.
마치 영화 인터스텔라의 책장씬처럼 8차원의 세계에서 어떤 오브제를 지켜보는 듯한 ‘초현실적인 특징을 가진 사실적인 장면’이 생성된 것인데요. 이를 계기로 Karen은 업계 최초의 NeRF 광고 맥도날드의 <해피뉴이어>**를 제작하기도 하였습니다.
**그녀는 이 영상을 아이폰 이미지로NeRF를 만들어주는 앱을 제공하던 LUMA AI로 만들었다고 합니다.
(아이폰에서 LUMA AI 앱을 깔고 오브제를 360촬영하면 NeRF렌더 영상을 PC웹화면에서 확인하는 링크를 제공합니다.)
참고로 위와 같은 ‘렌더링 과정’을 영상 표현의 한 기법으로 활용한 아티스트들은 여럿 있습니다.
NeRF 이전에 LiDAR 촬영본도 대규모의 공간이 점 형태로 렌더링 되어가는 과정이 비주얼적으로 새로움이 있기에 많은 아티스트들이 작업에 활용하고 있는데요, 대표적으로 프랑스의 아티스트 로랑그라소(Laurent Grasso)도 이들 중 한 명입니다. 그는 오르세 미술관 전체를 LiDAR로 촬영해 새로운 영상미를 보여주기도 하였고, 최근 초청된 성곡미술관 <프랑스현대사진전>에 가지고온 Nowness 작품에서는 꽃이나 숲 같은 자연을 LiDAR로 촬영해 새로운 비주얼을 제시하기도 하였습니다.
마치며,
NeRF 모델은 3D모델링 파이프라인을 혁신하고 싶어 하는 게임 업계나, 360제품 이미지를 제공해야하는 커머스, 가구나 전자 제품 등의 공간 시뮬레이션용 AR이미지나 메타버스를 구성하려고 업계, 스트릿뷰 사진 몇 장으로 실내 공간맵을 형성하고자 하는 MAP업계 등에서 관심을 가지고 지켜보고 있는 기술입니다.
현재의 NeRF모델 자체는 3D가 메시화 되지 않고 Lighting레이어를 떼어내 제어할 수 없기 때문에 기존의 3D모델링 파이프라인에 들어가지는 못하지만, 최근 소개되는 Text to 3D 연구들처럼 다양한 연구 모델과 융합되어 지속적인 발전을 거듭하리라 예상됩니다.
이 기술에서 새로운 영상미를 발견해낸 Karen X. Cheng 처럼, 새로운 비주얼에 대한 영감에 도움이 되셨기를 바라며 <AI Era 4호>는 여기서 마치도록 하겠습니다.
더 관심이 있으시다면 NVIDIA의 NeRF를 활용하는 아티스트 소개 페이지를 참고하세요~
Luma AI 와 Runway의 3D Capture 메뉴 에서도 NeRF 렌더링 영상 체험을 해보실 수 있습니다.
💡 참고하면 좋은 자료
1. 3D의 기초 상식
- 그래픽스 기초 (링크)
- PBR(Physically Based Rendering) (링크)
- Text to 3D (링크)
2. NeRF(Neural Radiance Fields)
- NeRF(Neural Radiance Fields) (링크)
- Zero123 (링크)
- DreamFusion (링크)
- Karen X Cheng (링크)
- NVIDIA AI Art Gallery (링크)
- 맥도날드 <해피뉴이어> NeRF광고 (링크)
- LECTURE CONTEMPORAINE, Spectral Orsay (링크)
- 성곡미술관 <프랑스현대사진전> (링크)
- Nowness, A hypnotic art vision of the natural world of Laurent Grasso (링크)
- 게임 업계에서의 NeRF (링크)
- 가구, 전자제품에서의 NeRF (링크)
- NeRF와 Gaussian Splatting 기술 (링크)
Editor : AI LABS 김효진 책임