"1분 음성데이터로 누구의 목소리도 닮은꼴 성대모사"/ 이 기술의 활용 범위

기술과 유행/공정, 제작과정, 노동대체 .☞ 펌보다 링크

SF영화에서 많이 봤고, 그 전에는 추리극 성대모사에서 꽤 봤을 장면입니다. 명탐정 코난
그것이 실제로 구현되었다는 뉴스인데요,
캐나다의 라이어버드(Lyrebird)라는 회사가 개발한 알고리즘입니다. 저 이름은, 오스트레일리아에 사는 라이어버드(금조)라고, 목소리와 사물의 소리를 잘 흉내내는 새이름에서 따 온 것입니다. 8비트 애플컴퓨터를 써 본 사람들은 머킹보드라는 걸 떠올릴 텐데..

내 목소리로 말하는 인공지능 나왔다
2017-05-04
1분 음성데이터로 어떤 글도 닮은꼴 성대모사
범죄나 가짜 뉴스 만드는 도구로 악용될 수도

  • 수십 초짜리 음성데이터만 있으면 어떤 텍스트가 주어지더라도 당사자의 목소리로 표현할 수 있는 성대모사 인공지능
  • 화가 났거나 짜증이 났을 때 등 여러 감정 상태를 담은 목소리 재현까지 가능
  • 아직까지는 쇳소리가 섞이기도 하는 등 개선할 점이 있음. 하지만 누구 목소리인 지 짐작하기는 충분하고 조만간 완전해질 것.
  • 음성인식 잠금해제는 무용지물이 될 것.
라이어버드 회사 홈페이지와 샘플. 버락오바마, 도널드트럼프 등.

컨셉 자체는 오래된 아이디어인 만큼, 다른 회사들도 유사 컨셉으로 비슷한 걸 만든 적 있다고, 기사의 나머지 부분에 소개가 있습니다.

  • 어도비의 프로젝트 보코(Project Voco). 이것은 음성 데이터를 20분 분량을 수집해 분석해야 동작.
  • 구글 딥마인드도 2016.9월 웨이브넷(WaveNet)이라고 자연스럽게 느껴지는 음성합성기술을 선보인 적 있음. 단, 남의 목소리 흉내내기는 언급 없음.

성대모사 인공지능의 용도
  • 좋은 쪽: 말을 못하는 장애인들의 음성 보조도구나 개인 비서용, 유명인의 목소리로 듣는 오디오북, 애니메이션이나 비디오 게임의 내레이션 등
  • 나쁜 쪽: 앞으로 전화통화를 계약 증거로 남기지 못하는 시대가 올 것. 가짜뉴스에 악용될 소지, 음성녹취의 증거력 문제 등.

나쁜 점 쪽이 꽤 심각해 보이는데, 이 기술 자체는 누가 만들어도 만들어낼 것이기 때문에, 막을 수 있는 일이 아님. 십 년 뒤에는 개인이 만들어낼 정도로 난이도가 낮아질 테니까.


가장 먼저 생각할 만 한 것은, 1인이 드라마와 애니메이션을 만드는 툴 패키지에 이 기능을 바로 도입할 것 같군요. 개인과 동아리 수준에서 친구와 가족의 목소리를 따서 작품을 만드는 데 쓸 수 있겠지요.

성대모사란 말에서 생각할 수 있듯이, 이제 성우들 일자리는 어쩌죠? 한 편으로, 저런 기술이 더 발전하면 유명 성우들은 자기 성대지문을 라이센스해서 먹고 살아야 하나 하는 생각도 듭니다. 애플 맥OS의 다양한 유료 TTS를 경험해 본 분들은 아시겠지만, TTS용 음성 자체는 지금도 꽤 팔리고 있습니다. 그런데, 채취하는 방법이 저렇게 간편해지고 다양한 상황에 마추어 발성시킬 수 있게 되면 그걸 잘 다듬어 자연스럽게 만든 프로용 음성 패키지와 그런 걸 쓰는 시장이 더 활성화될 것은 자명한 일..


그 다음 용도는 동시통역입니다. 인공지능 동시통역이 시연된 지는 이제 이삼 년 되어 가는 것 같습니다. 그 때 인공지능 보이스가 자기 목소리가 되는 것. 이거야말로 가장 좋은 응용일 것입니다. :) 예를 들어, 제 말을 통역기가 일어나 독일어로 말해주는 데 제 목소리 성문을 가지고 말해주는 거죠. :)


그리고, 성우대체+통역이라면 생각나는 거 있죠? 방송과 영화 더빙!

조니 뎁이 자기 목소리로 한국어로 말하는 캐리비안의 해적을 볼 수 있고

60년대작이든 2천년대작이든 로미오가 한국어로 말하며 줄리엣에게 사랑고백하고 줄리엣이 한국어로 답하는 장면을 감상할 수 수 있는 겁니다. :)


이 글과 같은 분류 글목록으로 가기 / 최신글목록으로 가기
트랙백이 없고, 댓글이 없습니다.
☞ 링크/트랙백관련

댓글을 달아 주세요