본 프로젝트는 음성 인식의 State-of-the-art (SOTA) 모델을 직접 다루고 응용해보기 위해 시작했습니다.
Wav2Vec2-xlsr-53 모델은 facebook에서 2020년에 개발한 Wav2Vec 2.0 모델의 Pre-trained model 중 하나로, 총 53개의 언어에 대한 음성 데이터를 사용하여 학습한 거대 모델입니다.
해당 모델은 한국어 음성 데이터에 대한 학습이 제공되지 않기 때문에 한국어 음성 데이터셋을 이용하여 Transfer learning을 진행했습니다. 한국어 데이터셋은 KosponSpeech dataset을 사용했으며 AI HUB에서 무료로 제공 받을 수 있었습니다.
기존 모델이 녹음된 음성 파일을 기준으로 디코딩을 진행하는 것에서 더 나아가, 사용자들이 실제로 쉽게 사용할 수 있도록 Colab에서 사용자의 음성을 마이크를 통해 수집하고 곧바로 해당 음성 데이터에 대한 디코딩 결과를 제공할 수 있도록 만들었습니다.
WER(Word Error Rate) for Third party test data : 0.373
총 4만개의 데이터로 transfer learning을 진행한 model이며, Third party data에 대한 결과입니다.
대부분의 decoding error는 정확한 한글 표기법을 따르지 않는 방식(들리는 대로 디코딩된 방식)에 의한 경우입니다. Further work로 더 많은 데이터를 학습 시키거나, 실제 사전에 존재하는 가장 가까운 단어로 matching 해주는 등의 post processing을 거치면 훨씬 좋은 성능을 기대할 수 있을 것 같습니다.