본문 바로가기
비즈니스 & 테크

사진만으로 실물 같은 아바타를 만들고 음성으로 제어할 수 있는 Google의 새로운 블로거 VLOGGER AI

by 정보톡톡01 2024. 3. 16.

Google의 연구원들은 최근 야근을 마다하지 않고 새로운 모델과 아이디어를 쏟아내고 있습니다. 가장 최근의 아이디어는 정지 이미지를 촬영하여 게임 플레이 중인 AI 에이전트에서 나오는 제어 가능한 아바타로 전환하는 방법입니다.

현재 블로거를 사용해 볼 수는 없지만 데모를 통해 아바타를 만들고 음성으로 제어할 수 있으며, 놀라울 정도로 사실적으로 보입니다.

이미 Pika Labs의 립싱크, Hey Gen의 동영상 번역 서비스 및 Synthesia와 같은 도구를 사용하여 어느 정도 비슷한 작업을 수행할 수 있지만, 이 옵션이 더 간단하고 대역폭이 낮은 옵션인 것 같습니다.

 

 VLOGGER 블로거란 무엇인가요?

현재는 재미있는 데모 비디오 몇 개가 포함된 연구 프로젝트에 불과하지만, 제품으로 만들어지면 Teams 또는 Slack에서 새로운 커뮤니케이션 방법이 될 수 있습니다.

정지 이미지에서 애니메이션 아바타를 생성하고 최종 동영상의 모든 프레임에서 사진 속 인물의 사실적인 모습을 유지할 수 있는 AI 모델입니다.

그런 다음 모델은 말하는 사람의 오디오 파일을 가져와 몸과 입술의 움직임을 처리하여 실제 사람이 말을 할 때 자연스럽게 움직일 수 있는 방식을 반영합니다.

여기에는 이미지와 오디오 이외의 참조 없이 머리 움직임, 표정, 시선, 눈 깜빡임은 물론 손동작과 상체 움직임을 만드는 것이 포함됩니다.

반응형

블로거는 어떻게 작동하나요?

이 모델은 텍스트-이미지, 비디오, 심지어 MidJourney 또는 Runway와 같은 3D 모델까지 지원하는 확산 아키텍처를 기반으로 구축되었지만 추가적인 제어 메커니즘을 추가했습니다.

브이로거는 생성된 아바타를 얻기 위해 여러 단계를 거칩니다. 먼저 오디오와 이미지를 입력으로 받아 3D 모션 생성 프로세스를 거친 다음 '시간적 확산' 모델을 통해 타이밍과 움직임을 결정하고 마지막으로 업스케일링하여 최종 출력으로 변환합니다.

기본적으로 정지 이미지를 첫 번째 프레임으로, 오디오를 가이드로 사용하여 시간에 따른 얼굴, 몸, 포즈, 시선 및 표정의 움직임을 예측하는 신경망을 구축합니다.

모델을 훈련하려면 MENTOR라는 대규모 멀티미디어 데이터 세트가 필요했습니다. 여기에는 매 순간마다 얼굴과 몸의 각 부위에 라벨을 붙인 다양한 사람들이 말하는 80만 개의 동영상이 있습니다.

블로거의 한계는 무엇인가요?

이는 실제 제품이 아닌 연구용 미리보기이며, 실제와 같은 동작을 생성할 수는 있지만 동영상이 항상 실제 사람의 움직임과 일치하지 않을 수 있습니다. 이 모델의 핵심은 여전히 확산 모델이며 비정상적인 동작이 발생할 수 있습니다.

특히 움직임이 크거나 다양한 환경에서는 어려움을 겪는다고 합니다. 또한 비교적 짧은 동영상만 처리할 수 있습니다.

블로거의 사용 사례는 무엇인가요?

Google의 연구원들에 따르면 주요 사용 사례 중 하나는 동영상 번역입니다. 예를 들어 특정 언어로 된 기존 동영상을 촬영하고 새로 번역된 오디오와 일치하도록 입술과 얼굴을 편집하는 것입니다.

다른 잠재적 사용 사례로는 가상 비서, 챗봇 또는 게임 환경에서 사실적으로 보이고 움직이는 가상 캐릭터를 위한 애니메이션 아바타를 만드는 것이 있습니다.

사용자가 회사 사무실에 들어가서 가상 아바타를 만들어 프레젠테이션을 할 수 있는 Synthesia 등 이와 유사한 기능을 하는 도구가 이미 있지만, 이 새로운 모델은 그 과정을 훨씬 더 쉽게 만들어 줄 것으로 보입니다.

한 가지 잠재적인 용도는 저대역폭 비디오 통신을 제공하는 것입니다. 향후 버전에서는 정지 이미지 아바타에 애니메이션을 적용하여 오디오를 통한 화상 채팅이 가능해질 수 있습니다.

이는 플랫폼의 자체 아바타 모델과 독립적으로 작동하는 메타 퀘스트나 애플 비전 프로와 같은 헤드셋의 VR 환경에 특히 유용할 수 있습니다.

반응형

댓글