[하비엔뉴스 = 이지희 기자] 엔씨소프트는 게임 음성제작 과정 전반에 활용할 수 있는 AI 모델 ‘제로샷 멀티버스TTS’(이하 멀티버스TTS)를 8일 공개했다.
TTS는 자연어를 입력해 캐릭터 목소리 같은 음성 콘텐츠를 제작하는 음성 합성 기술로, 엔씨소프트가 공개한 멀티버스TTS는 3초 분량의 프롬프트 음성만으로도 ▲다양한 발화 스타일 변환 ▲화자 음색 일치도가 높은 교차 언어 생성 ▲다국어 음성 제작이 가능하다.
![]() |
엔씨소프트 사옥. [사진=엔씨소프트] |
이같은 기술을 통해 제한된 음성 리소스를 활용해 고품질의 풍부한 AI 캐릭터 보이스 제작이 가능하고, 기존 음성 작업에 소요되던 시간과 비용을 크게 절감할 수 있다는 것이 엔씨소프트 측의 설명이다.
또 여러 가지 언어와 기능을 가진 TTS를 하나의 모델로 제공해 다국어 음성 콘텐츠를 제작할 수 있고, 최적화된 하나의 모델을 활용하는 만큼 경쟁 TTS 모델 대비 적은 운용 비용으로 고품질의 음성 생성 서비스를 제공할 수 있다.
엔씨소프트는 이번 멀티버스TTS를 시작으로 연내 100종의 게임 캐릭터 음성을 제작하고, NPC의 성격과 상황에 맞춰 음성을 제작하는 조절기능을 지속 개발해 나간다는 계획이다.
한편 엔씨소프트는 지난 4일 세계적 권위의 인공지능 관련 기술학회 ‘EMNLP’에 단일 모델로 다양한 스타일의 언어와 음성을 생성하는 멀티버스TTS 모델 관련 논문을 게재해 글로벌 기술력을 입증했다.
[ⓒ HBN뉴스. 무단전재-재배포 금지]