[AI Era] 5호. NO감독으로 AI영상 만드는 법
혹시 일식집에서 나오는 계란찜의 레시피를 아시나요?
한 컵에 쏙 담겨 만드는 법도 간단할 것으로 보이지만, 사실 그 부드러운 푸딩 질감엔 달걀물을 체에 4~5번 거르며 일일이 알끈을 제거해 주는 눈에 보이지 않는 수고들이 숨겨져 있다고 합니다.
Text로 쓰기만 하면 실제 촬영 같은 드론 영상도 뚝딱 만들어준다는 마법 같은 도구!
SORA가 주춤하는 사이 훅 치고 들어와, 카메라 무빙 및 앵글감을 무기로 AI 영상 제작계에 슈퍼루키로 등극한 Runway의 GEN-3!
오늘은 이 계란찜 뚝딱 메이커 같은 신상 AI로 영상을 만들려면, 실제 어떠한 과정들이 필요하고 어떤 문제들에 봉착할 수 있는지, 저희 AI LABS가 직접 경험해 본 순도 100% 리얼 제작 케이스를 통해 노하우를 공유하는 시간을 가져볼까 합니다.
NO감독, 100%내부제작 AI영상을 만들라!
HSAD의 AI Labs는 지난 7월8일에 신설되었습니다. 그런데 짐도 다 풀지 못한 팀 발령 당일 오후에 OT를 받고, 구입한 GPU PC가 도착도 하기 전에 아이데이션을 하여, 팀 신설 3일 째부터 부랴부랴 각종 AI 소프트웨어 구독 품의 올리며 제작에 돌입해, 팀 신설 한달 째인 8월 9일에 첫 시사를 하게 되는 ‘NO감독, 100% 내부제작’이라는 AI 영상 제작 미션을 받게 됩니다.
그 미션은 바로, 대표님의 부산국제광고제 키노트 세션 오프닝 영상을 만드는 것.
과연 가능할까? 답은 YES. 이렇게 만들어졌으니까요.
이 영상의 제작 과정은 크게 5단계로 나누어졌습니다.
Step1: 기획 (콘티 아이데이션, Work Flow Planning, 사용할 AI Tool Mix)
Step2: 이미지화*(미드저니로 T&M컨셉에 맞는 콘티 컷을 뽑고, 매그니픽으로 업스케일링)
Step3: 영상화(각 콘티 컷을 GEN-3로 카메라웍 들어간 10초 분량의 영상 컷으로 전환)
Step4: 편집(애프터이펙트로 컷과 컷을 연결하며 전환 효과 추가)
Step5: 사운드(BGM과 사운드Effect 추가)
*처음 기획 단계에는 Step2. 과정을 생략하고 GEN-3에서 바로 Text -To-Video를 뽑을 계획이었으나 당시 GEN-3(알파)는 베타 버전으로 프롬프팅 만으로 원하는 스타일의 이미지를 구현하기가 힘들다는 것을 발견, 미드저니로 이미지를 구현한 후 GEN-3로 영상화하는 Image-To-Video방식으로 변경하게 됩니다. 모든 AI제작 영상들이 똑같은 플로우로 만들어지는 것이 아니므로 이 영상의 사례로 참작 부탁드립니다.
1분 분량의 영상을 위해 준비된 밑 작업 콘티는 총 72컷
원하는 스타일의 콘티 컷이 나올 때까지 미드저니 프롬프팅을 평균 30번은 수정하였으니 미드저니를 총 2160번은 돌린 셈입니다. 다음으로 원하는 앵글감과 카메라 무빙컷으로 전환하기 위해 GEN-3 프롬프팅도 평균 20번은 수정해야 했으니, GEN-3또한 1440번은 돌림 셈. 도합 프롬프팅만 3600번**은 했다고 보아도 무방합니다.
**3명이 나누어 돌린다면, 실질적으로 2주간 제작을 하였으니, 인당 하루에 120번, 한 번에 5분씩은 소요되니 600분, 시간으로는 하루 꼬박 10시간이 소요되는 작업량입니다.
간단히 나오는 줄 알았던 푸딩 계란찜의 알끈 제거가 참 쉽지 않습니다. 물론 여기에 각 컷의 업스케일링 작업과, 애프터이펙트, 편집하다 잘 붙지 않으면 앞뒤 편집감을 고려해 다시 돌리는 수정 작업까지 더하면, AI로 간편해질 줄 알았던 영상 제작 프로세스는 실상은 수많은 스텝들과 나누어 지던 일이 한 명에게 집중화되어 AI GO [아이고] 소리가 절로 나는 현타를 맞이합니다.
AI와의 제작 과정을 실제 영상 제작에 빗대어 표현하면, 미드저니는 아트 실장님, GEN3는 카메라 감독님, 그리고 나는 감독이라고 생각하면 됩니다. 현실과 다른 건 스텝이 전혀 없는 1인 다역 감독입니다. 헤어 스타일리스트도, 미술감독도, 소품 실장님도, 모델 에이전시도, 로케이션 매니저도, 조명감독도 아무도 없는. 그리고 그 모든 것을 한순간에 프롬프팅이라는 PPM으로 순식간에 결정합니다. 그래서 여러분이 GEN-3로 무언가를 만들고 싶다면 이제부터 ‘나는 감독이다’ 의자를 사실 것을 추천합니다. 실제로 이 유투버와 같이 감독 놀이를 하며 GEN-3와 대화를 하다 보면 만드는 재미가 더해지기도 합니다.
자, 지금부터는 초보 감독들을 위한 몇 가지 Tip들을 공유해 드리도록 하겠습니다.
Tip1. 나누어질 컷에 대한 계획을 세워라!
현재 GEN-3는 500자의 영어 프롬프트로 최대 10초 분량의 컷을 생성할 수 있습니다. 그렇다 보니 10초 안에 롱테이크로 표현 가능한 범위에 대한 이해가 필요합니다. 가령 <구름을 뚫고 하강해, 구석기 느낌의 동굴 입구를 지나 알타미라의 동굴 벽화 같은 것을 그리고 있는 고대인의 옆모습>까지를 10초 분량의 롱테이크로 생성하고 싶어, 프롬프팅을 133번이나 해보았지만 절대로 한 번에 그 씬이 생성되지 않았습니다. 구름이 걷혔는데 갑자기 하늘에서 절벽이 생긴다거나, 하이퍼랩스를 잘 따라들어가는 듯했으나 갑자기 런닝셔츠를 입은 고대인이 등장하거나, 벽화를 그리고 있으랬는데 갑자기 허공에서 먼지떨이를 하며 감독의 혈압 상승을 유발합니다. 결론은 씬을 잘 쪼개야 한다ㅠㅠ
생성 컷의 3초씩만 쓴다는 가정으로 편집점을 생각해, 구름씬-동굴입구씬-벽화씬 정도로 원테이크 인냥 연결할 수 있는 Flow를 생성해 주어야 하는데 전문가와 아마의 차이는 바로 이 지점의 경험치에서 발생합니다.
Tip2. 프롬프팅 문법을 배우라! 로봇의 언어로
몇 년 전 미국의 한 아버지가 아이들에게 코딩의 절차적 사고를 가르치기 위해 샌드위치빵에 땅콩잼을 바르는 법을 설명해 보라고 한 실험 영상이 큰 화제가 된 적이 있었습니다. ‘빵을 든다. 땅콩잼을 바른다’ 라고만 적힌 명령어 대로 아빠는 땅콩잼을 병 째 빵에 바르며 아이들을 당황하게 합니다. 너는 ‘땅콩잼 뚜껑을 열고, 칼을 들고, 잼을 조금 떠서, 덜어 꺼낸 후, 식빵에 바르시오’라는 말을 한 적이 없어!
미드저니도 GEN-3도 모두 로봇입니다. 그들은 사람이 아니기에 그들의 언어를 이해하는 법을 익혀야 합니다. 제가 지금까지 경험해 보고 습득한 바로는, LLM언어 모델이나 미드저니 같은 이미지 생성 모델에 비해 영상 생성 모델은, 구체적인 고유명사와 같은 정보를 주면 오히려 이해하지 못합니다. 가령 ‘알타미라’ 동굴의 벽화를 이해하지 못하는 거죠. 하지만 구체성은 여전히 필요합니다. ‘고대인’을 등장시키라고 했을 때 그것이 기원전 3천 년 경인지 3만 년 경인지를 지정하지 않으면, 로마시대 튜닉을 입은 사람이 등장하게 됩니다.
그리고 생성형 AI마다, 구동 프롬프트의 문법이 조금씩 다른데요, GEN-3의 경우는 특히 카메라웍에 특화된 AI이다 보니, 프롬프팅의 핵심은 [카메라웍]-[상황]-[디테일] 순으로 입력해야 합니다.
An ultra-fast first-person POV hyper-lapse rapidly speeding through a dense clouds into a Ancient humans are painting cave walls with warm tones. Dynamic motion.Cinematic
Tip3. 카메라웍, 앵글 용어를 익혀라
camera starts from over the shoulder shot, slowly dolly in and zooming into the monitor screen, camera faces the full monitor screen, cinematic, realistic, good quality, highly detailedFPV, HYPERLAPSE
GEN-3는 말하자면 AI카메라 감독님. 당연 그들과 대화를 하려면 그들의 업계 용어를 사용해야 합니다. 가령 위의 씬에서 <카메라맨의 어깨너머의 앵글에서 출발해 천천히 카메라 모니터 안의 촬영 중인 영상물로 줌인 해줘>라는 명령을 내리고 싶을 때 촬영 실무 용어를 넣어주면 찰떡같이 알아듣는 것이 GEN-3의 특장점입니다. 1인칭 시점인 First Person Point of View shot는 이미 ‘FPV’라는 약칭으로도 이해되고 있는 수준. 그래서 GEN-3도 카메라웍에 대한 친절한 용어 가이드를 알려주고 있으니, 관심이 있으신 분들은 이 링크의 프롬프트를 응용해 보세요.
Tip4. 제작하는 순간에도 새로운 툴에 대한 안테나를 세워라!
AI의 발전 속도는 너무 빠릅니다. 실제로 우리가 프로젝트를 시작할 당시 GEN-3는 베타버전인 GEN-3(알파)였는데 7월 10일에 접속할 당시 Image-To-Video 기능은 구현되지 않고 있었습니다. GEN-3가 자랑한 Text-To-Video의 퀄러티가 초기 기획 당시 예측한 것만큼 따라주지 않아, 다급히 다른 신생 영상 AI들을 테스트하며 대안을 찾느라 혈안이 되어 있었는데, 1주일 뒤부터 갑자기 GEN-3에서 Image-To-Video 기능이 구현되기 시작했습니다. 다시 모든 작업 프로세스를 정비해 GEN-3로 돌아와 프로젝트를 완수할 수 있었습니다. 지금 내가 작업을 하고 있는 이 순간에도 새로운 기술은 지속해서 업데이트되고 있으니, 항상 안테나를 세우고 언제든지 더 나은 기술로 주저 없이 갈아탈 마음의 준비가 필요합니다.
Tip5. 모든 것을 AI로 하려고 하는 어리석음에 갇히지 말라
우리의 목표는 좋은 결과물이지 100% AI이어야 하는 것은 아닙니다. 기존의 방식이 AI보다 낫다면 주저 없이 그 기존의 방식을 사용할 수 있어야 합니다. 일례로 위의 로고 타이틀 씬의 경우 HSAD라는 우리의 신규 로고 디자인을 AI에게 그대로 구현하게 할 수는 없습니다. 하지만 AI에게 로고 파일을 주고 그것의 재질감과 배경을 생성하라고 할 수는 있습니다. 일을 하다 보면 우리가 목표로 하는 결과물이라는 전체 큰 그림이 아니라 과정 하나에 천착하게 되는 일이 왕왕 발생합니다.
‘내부 제작 100%’라는 미션을 받았지만, 현재 구성원으로는 배경 음악과 사운드 Effect를 기깔나게 맞출 인력이 없습니다. 물론 Suno AI 같은 툴도 나와 있지만, 우리는 전문가이기에 아마추어 수준의 박자감을 참아 줄 수가 없습니다. 그렇다면 비용을 조금 쓰더라도 외부 녹음실은 사용하자. AI는 만능이 아닙니다.
마치며,
물론 저희 팀이 만들어낸 오프닝 영상도 많은 흠결이 있습니다. 전문적인 DI를 맞추지도 못했고, 전체 스토리 하나하나를 뜯어보면 저 씬이 아니라 다른 그림이었으면 어땠을까 하는 생각을 하시는 분들도 계실 겁니다. 하지만 이것은 서로의 역량과 경험치가 다른 사람들이, 하루아침에 모여 앉아 만들어낸 저희 팀의 첫 시도였고, 이러한 경험이 쌓이면 좀 더 나아질 것이라고 확신합니다.
💡 참고하면 좋은 자료
- AI Coda _Run away Gen3 프롬프트 완전 분석 (링크)
- 아이사랑_샌드위치 코딩 : 자녀 코딩교육 영상 (링크)
- Gen-3 Alpha Prompting Guide (링크)
Editor : AI LABS 김효진 책임