🎥 프로젝트 소개

https://youtu.be/p3gv3yi6vYo

Untitled

<aside> 🎯 ● 본 프로젝트는 Glow_TTS, HiFi_Gan 모델을 활용하여 자연스러운 한국어 음성학습을 제안한다. 사용자는 Text를 입력하고 비음화, 설측음화, 격음화, 숫자(기수, 서수)에 맞는 전처리 하여 Spectogram을 생성하고 자연스러운 한국어 음성을 wav파일 혹은 바이너리 음성 데이터를 추출할 수 있다. ● 학습에 이용된 KSS데이터는 문장: 12,853, 고유단어: 5,091으로 이루어져 있으며 Glow_TTS 400,000 Epoch, HiFi_Gan 600,000 Epoch를 학습하였으며 품질향상을 위해 학습데이터를 기반으로 Scale Stats (평균값, 표준값) 생성하여 처리하였다.

</aside>

📌 키워드


#Text to Speech #Glow_TTS #Hifi_Gan # KSS데이터

개발환경 설정

👉 GPU를 사용하기위해 Cuda Toolkit, Cudnn 설치

👉 TTS학습을 위한 g2pk, mecab 등 필수라이브러리 설정

백엔드 프로그래밍

👉 숫자(서수, 기수), 자음접변, 설측음화, 격음화 텍스트 전처리

👉 Glow_TTS학습 향상을 위한 scale stats 처리

👉 KSS학습데이터 전처리(확장된텍스트)

🧐 피드백