AI
Deep learning> Speech Recognition Training Data
damti
2022. 6. 27. 16:47
: FGI를 따면서 인물 목소리를 구분해주는 프로그램을 찾아 헤맸다. 하지만 못찾았다. google_핀포인트는 구분 정확도가 높다던데 문제는 영어 밖에 변환이 안 된다. 클로바는 디테일에서 사람이 둘에서 다섯이 되었다. 무튼 돌아돌아 서치하다 음성 인식에 필요한 훈련 데이터를 구현을 학습한다.
* 음원 분리 : 여러 개의 음원이 섞여 있는 입력 파형을 개별 음원의 파형으로 분리하는 것
- 음성 강조 or 잡음 제거
* training data => 음성 + 잡음 섞여 있는 파형 필요함
teacher data => 음성만 있는 파형
-> 잡음 섞여 있는 음성 파형에서 음성만 추출하도록 트레이닝함.
* Signal-to-Noise ratio(SN비/신호 대비 잡음 비)
- dB(단위)
- SN비 수치 high -> 음성이 잡음보다 크다 의미
(ex. 5dB -> 20dB : 음성 high , 잡음 low)
*run
- python
- .wav
> 16bit
> sampling rate 통일(파일 2군)
- 양자화 16bit 최대값(이진수로 32767) -> 최대값 넘는 파형 -> breaking
=> 돌아오도록 정규화
- 마지막 저장 .wav