혼동을 주는 유사단어들이 좀 있는 것 같아서 본격적으로 스터디 들어가기 우선 용어부터 정리중
1. ASR에 대해 우리말로 정의와 기본개념이 잘 정리되어있는 IBM 소개 페이지
URL: https://www.ibm.com/kr-ko/topics/speech-recognition
2. 화자 인식 기술에서 쉽게 혼동될만한 개념들: 화자식별, 화자검증, 화자분리, 화자분할 등
다 그놈이 그놈 또는 상하위 개념 포함관계인줄 알았으나 엄밀히 따지면 명확한 차이가 있었다.
출처: https://www.skelterlabs.com/blog/speechai
- 화자 식별(Speaker Identification)
기 등록된 목소리 중 누구 목소리랑 일치하는가?
- 화자 검증(Speaker Verification)
등록된 특정인의 목소리와의 일치여부 검증 -> T/F
- 화자 분리(Speaker Seperation)
특정 화자의 목소리만 분리(예: 내 목소리만 필터링)
개념 소개: https://dos-tacos.github.io/paper%20review/speaker_diarization/
네이버 클로바노트의 회의록 기능이 괜찮아서 써봤었는데 여기서 녹음할 때 사용하는 기술이 SD 알고리즘 쪽에 속하는 것 같았다.