🎥 프로젝트 소개

Untitled

<aside> 🎯 ● 본 프로젝트는 Glow_TTS, HiFi_Gan 모델을 활용하여 자연스러운 한국어 음성학습을 제안한다. 사용자는 Text를 입력하고 비음화, 설측음화, 격음화, 숫자(기수, 서수)에 맞는 전처리 하여 Spectogram을 생성하고 자연스러운 한국어 음성을 wav파일 혹은 바이너리 음성 데이터를 추출할 수 있다. ● 학습에 이용된 KSS데이터는 문장: 12,853, 고유단어: 5,091으로 이루어져 있으며 Glow_TTS 400,000 Epoch, HiFi_Gan 600,000 Epoch를 학습하였으며 품질향상을 위해 학습데이터를 기반으로 Scale Stats (평균값, 표준값) 생성하여 처리하였다.

</aside>

📌 키워드

#Text to Speech #Glow_TTS #Hifi_Gan # KSS데이터

개발환경 설정

👉 GPU를 사용하기위해 Cuda Toolkit, Cudnn 설치

👉 TTS학습을 위한 g2pk, mecab 등 필수라이브러리 설정

백엔드 프로그래밍

👉 숫자(서수, 기수), 자음접변, 설측음화, 격음화 텍스트 전처리

👉 Glow_TTS학습 향상을 위한 scale stats 처리

👉 KSS학습데이터 전처리(확장된텍스트)

🧐 피드백

KSS데이터를 학습시 Scalestat를 계산하여 Glow_TTS를 학습시 발음 향상이 있었습니다. 그러나 HiFi_Gan에서는 Generator와 Discriminator 생성에서 과적합과 비슷한 loss 변화가 있었으며 해결하는 과정으로 scalestat를 초기화하여 진행하였습니다. 이로인해 기계음이 줄어들게 하는 과정을 진행 하였습니다.
KSS데이터는 상업화가 불가능한 데이터로 실제 상용화를 위해서는 음성데이터와 텍스트데이터를 만들 필요가 있었습니다. 연구원의 음성으로 12시간데이터를 생성하였으나, 품질변화는 KSS데이터와 큰 차이가 없었으며 전문 성우 음성데이터가 추가로 필요할 것으로 확인 하였습니다.
한국어전처리는 발음 특성을 고려하여야 합니다. 자음접변(자음동화), 설측음화, 격음화, 외래어, 숫자(기수, 서수), 쉼표와 마침표, 소수점 등 특성의 변화가 많이 이루어 지므로 텍스트전처리가 필수적으로 필요합니다. 많은 처리가 요구될때 모든 전처리 로직을 거치면 속도가 늦어 질 수 있습니다. 이에 향후 전처리를 단순화하기 위한 연구가 필요합니다.