AI

Deep learning> Speech Recognition Training Data

damti 2022. 6. 27. 16:47

: FGI를 따면서 인물 목소리를 구분해주는 프로그램을 찾아 헤맸다. 하지만 못찾았다. google_핀포인트는 구분 정확도가 높다던데 문제는 영어 밖에 변환이 안 된다. 클로바는 디테일에서 사람이 둘에서 다섯이 되었다. 무튼 돌아돌아 서치하다 음성 인식에 필요한 훈련 데이터를 구현을 학습한다.

 

 

 

* 음원 분리 : 여러 개의 음원이 섞여 있는 입력 파형을 개별 음원의 파형으로 분리하는 것

- 음성 강조 or 잡음 제거

 

 

* training data => 음성 + 잡음 섞여 있는 파형 필요함

  teacher data => 음성만 있는 파형

 

      -> 잡음 섞여 있는 음성 파형에서 음성만 추출하도록 트레이닝함.

 

 

* Signal-to-Noise ratio(SN비/신호 대비 잡음 비)

- dB(단위)

- SN비 수치 high -> 음성이 잡음보다 크다 의미

  (ex. 5dB -> 20dB : 음성 high , 잡음 low)

 

 

 

*run

 

- python

- .wav

  > 16bit

  > sampling rate 통일(파일 2군)

 

 

 

 

- 양자화 16bit 최대값(이진수로 32767) -> 최대값 넘는 파형 -> breaking

  => 돌아오도록 정규화

 

- 마지막 저장  .wav

 

 

 

 

 

 

 

 

큰 참고 : https://engineering.linecorp.com/