최근 AI를 활용한 챗봇 서비스인 ChatGPT, 이미지 생성 서비스인 Stable Diffusion 등이 세간의 이목을 집중하면서 AI 음성 사이트인 Vrew가 다시 한번 부각하고 있다. AI 음성 사이트 중 사용자가 많은 Vrew를 활용한 AI 목소리에 따라 입 모양이 움직이는 AI 아바타를 제작하는 방법을 소개한다.
AI 음성 사이트
텍스트를 음성으로 변환하는 AI 음성 기술이 먼저 공개됐지만, 지금은 OpenAI에서 선보인 GPT에 가려져 있는 상태이다. 여기에 AI 이미지 생성 기술인 Stable Diffusion이 소스를 무료로 배포하다 보니, 이를 기반으로 한 AI 이미지 생성 프로그램들이 계속해서 출시되고 진화하고 있다. 어느덧 실제 인물을 연상할 만큼 실사화에 가까운 AI 이미지 생성도 실현되고 있다. 그러다 보니 생성한 AI 이미지에 음성을 입혀 말하는 AI 아바타를 꿈꾸게 되고, 실제로 AI 아바타를 생성하는 사이트들도 존재한다. 하지만 특정 모델에 특정 음성을 사용하다 보니, Stable Diffusion으로 가지각색 이미지를 생성하던 프롬프트에 비하면 무언가 빠진 듯한 모양새이다. 아직은 말하는 AI 아바타가 완성도면에서 약간 떨어지다 보니, 현재 시점에서 찾아낸 방안이 Stable Diffusion으로 생성한 이미지에 AI 음성 사이트를 활용한 목소리를 입히는 방식이다. 이때 가장 선호되는 AI 음성 사이트는 단연 Vrew이다. 다음에서 AI 음성 사이트인 Vrew를 소개한 후에, 이를 어떻게 활용하여 말하는 AI 아바타의 완성도를 높이는지 살펴본다.
자막 생성에서 음성 생성으로 Vrew
본래 Vrew는 영상에서 음성을 텍스트로 변환해 자막을 생성하는 영상 편집 프로그램으로 유명하지만, AI 이미지를 생성하는 기술이 발전함에 따라 텍스트를 음성으로 생성하는 기능이 각광을 받고 있다. 즉, 영상 편집 프로그램인 Vrew에서 말하는 AI 아바타를 제작 시에 완성도를 높이기 위해 필요한 음성 기능만을 활용하는 방식이다.
위 이미지를 누르면 국내 기업인 보이저엑스에서 운영하는 Vrew 사이트로 바로 연결하는데, 초기에는 100% 무료 사용이었지만 지금은 부분 유료화로 변경됐다. 하지만 기본적인 기능은 무료로 사용이 가능하므로 부담없이 사용할 수 있고 퀄리티도 좋은 음성 기능을 제공한다.
위에 링크한 Vrew 무료 다운로드 버튼을 누르면 컴퓨터 바탕화면 하단 또는 지정한 다운로드 폴드에 Vrew 설치 파일이 나타난다.
이 Vrew 설치파일을 더블클릭하면 간단하게 Vrew 프로그램을 컴퓨터에 설치할 수 있다. 설치를 완료한 후에 계정을 생성해 로그인을 하면 더 많은 무료 기능을 사용할 수 있다. Vrew 프로그램은 AI 기반 영상 편집 프로그램으로 다양한 기능을 지니고 있지만, 여기에서는 AI 목소리를 생성하는 기능만 살펴본다.
Vrew 프로그램을 실행한 후에 로그인을 한 상태에서 상단 좌측에 위치한 새로 만들기 메뉴를 누르면 팝업이 뜨는데 여기에서 가장 하단에 위치한 AI 목소리로 시작하기를 누른다.
그런 후에 텍스트를 입력하면 AI 목소리를 생성할 수 있는데, 이때 목소리 설정 항목을 눌러서 AI 목소리를 선택할 수 있다.
텍스트를 다 입력한 후에 엔터를 치면 AI 목소리를 생성한다. 이후 여기에 이미지를 추가하여 영상도 제작할 수 있다. 이때 이미지는 무료 이미지 또는 비디오를 사용해 배경을 채울 수도 있고, 컴퓨터에 저장한 개인 이미지를 활용할 수도 있다. 말하는 AI 아바타 제작 시에 비교를 위해 여기에서는 Stable Diffusion을 활용해 생성한 AI 이미지를 추가했다.
이후 상단 우측에 위치한 내보내기 버튼을 누른 후에 원하는 형태 즉, 영상 또는 오디오 등을 선택해 컴퓨터에 저장할 수 있다.
이렇게 제작한 MP4 영상을 첨부하면 아래와 같은데, AI 이미지에 AI 오디오를 입힌 영상이다.
참고로, 여기에서는 오디오 파일만 저장해서 이후에 말하는 AI 아바타 영상 제작 사이트에서 음성 파일에 첨부하는 형태로 활용한다. 이미지는 여기에 삽입한 AI 이미지를 그대로 넣으면 AI 아바타 영상 제작 사이트에서는 음성에 맞춰 이미지가 말하는 듯 입이 움직이는 영상을 만들어준다. 다음에서 Stable Diffusion으로 생성한 AI 이미지와 Vrew로 생성한 AI 목소리를 활용하여 AI 아바타를 생성하는 방법을 소개한다.
완성도는 높지만 유료 서비스인 AI 아바타
AI를 활용한 다양한 기술들이 등장하면서 일반인들이 실제로 체험하면서 경외감까지 느낄 수 있는데에는 많은 부분을 무료로 접근할 수 있는 덕택이다. 하지만 챗봇 서비스인 ChatGPT도 조금씩 유료화로 이동 중이고 인공지능 이미지 생성 프로그램인 DALL-E2도 무료로 사용할 수 있는 한계가 존재할 정도로, AI 서비스는 서서히 유료화로 전환하는 추세이다.
이 중에서 AI 아바타를 생성하는 부분은 출시 시점부터 무료로는 사용이 불가능할 정도이다. 대부분 처음 계정을 생성하면 맛보기로 1번 정도 AI 아바타를 무료로 생성할 수 있고, 그 이후부터는 유료로 결제해야만 가능하다. 이전에 말하는 3D 아바타를 만드는 AI 스튜디오 콘텐츠를 업로드했는데, AI 스튜디오도 한 하나의 3D 아바타만 무료로 생성이 가능하고 그 이후에는 유료로 결제해야 한다.
이번에 소개한 AI 아타바를 생성하는 사이트는 Studio D-ID(스튜디오 디아이디)인데, 이 스튜디오 디아이디 역시 계정 생성 후 14일간 20크레딧에 해당하는 영상 작업만 무료로 사용이 가능하다. 무료로 사용할 수 있는 한도가 너무 작다는 아쉬움은 있지만, 그래도 현재 시점에서는 AI 아바타의 완성도 측면에서는 가장 높은 듯하다.
위의 링크로 접속하면 스튜디오 디아이디 사이트로 바로 연결할 수 있는데, 계정을 생성해야만 14일간 5분 영상을 제작할 수 있다. 정확히는 20크레딧이 무료로 제공하는데 이 20크레딧이 5분 영상을 제작할 때 소요되는 비용이다. 영상 시간에 따라 소요되는 크레딧이 달라진다.
이때 구글 계정과 연동하면 바로 Studio D-ID에 로그인할 수 있다. 이때 구글 계정만 있으면 되므로 편법이긴 하지만 Studio D-ID에서 무료 사용이 끝나면 다른 구글 계정으로 사용할 수 있다. 수고로움이 많이 뒤따르는 방법이지만 구글 계정은 여러 개 생성이 가능하므로, 이런 방법으로 Studio D-ID에서 여러 개 AI 아바타를 생성할 수도 있다.
로그인을 한 후에 좌측 메뉴에서 Create Video를 누른다. 그런 후에 하단에서 모델을 선택할 수 있는데 여기에서는 ADD 항목을 누른 후에 기존에 Stable Diffusion으로 생성한 AI 이미지를 추가한다. 그런 후에 오른쪽 패널에서 Upload Voice Audio를 누른 후에 기존에 Vrew에서 생성한 AI 목소리 파일을 업로드한다.
더불어 AI 이미지 조정이 되지 않으므로 모델로 업로드할 AI 이미지는 모델 목록의 원형 안에 제대로 이미지가 들어가도록 포토샵 등과 같은 이미지 편집 프로그램에서 수정 후에 업로드해야 한다.
위와 같이 원본 AI 이미지는 윗부분이 잘려 나간 모습이 보여지므로, 원본 AI 이미지의 아래 부분을 잘라낸 후에 상단 이미지만 따로 저장해서 업로드했다. 이렇게 AI 이미지가 원형 안에 정확히 보이고, 업로드한 AI 목소리도 제대로 나온다면 상단에 위치한 GENERATE VIDEO 버튼을 누르면 자동으로 AI 목소리에 맞춰 입 모양이 변하면서 실제로 말하는 듯한 AI 아바타 영상을 제작할 수 있다.
GENERATE VIDEO 버튼을 누르면 아래와 같이 확인 팝업이 나오는데, 20초 영상을 생성하는데 2크레딧이 소모된다고 나온다. 여기에서 하단에 위치한 Generate 버튼을 누르면 AI 목소리에 맞춰 말하듯이 자연스럽게 입 모양이 변하는 AI 아바타 영상을 생성한다.
그러면 아래와 같이 AI 아바타 영상을 완성하는데, 완성된 영상을 눌러서 바로 확인이 가능하다. 또한 영상 하단에 위치한 DOWNLOAD 버튼을 눌러서 영상 파일을 컴퓨터에 저장할 수도 있다.
이렇게 완성된 AI 아바타 영상은 아래와 같다.
입 모양이 약간 부자연스러운 부분도 있지만 그래도 이 정도면 퀄리티가 매우 뛰어나다. 위에서 본 AI 이미지와 AI 목소리를 넣어 만든 영상과 비교해 보면 그 차이를 확실히 실감할 수 있다. Studio D-ID는 AI 이미지뿐만 아니라 사진도 활용해서 움직이는 아바타를 생성할 수 있는데 실제 인물 사진은 사용할 수 없다. 더불어 AI 목소리는 실제 음성을 녹음한 파일을 업로드해 사용하는 것도 가능하다.