2023년 6월 23일 금요일

음성인식 관련기술 survey

혼동을 주는 유사단어들이 좀 있는 것 같아서 본격적으로 스터디 들어가기 우선 용어부터 정리중


1. ASR에 대해 우리말로 정의와 기본개념이 잘 정리되어있는 IBM 소개 페이지

URL: https://www.ibm.com/kr-ko/topics/speech-recognition


2. 화자 인식 기술에서 쉽게 혼동될만한 개념들: 화자식별, 화자검증, 화자분리, 화자분할 등

다 그놈이 그놈 또는 상하위 개념 포함관계인줄 알았으나 엄밀히 따지면 명확한 차이가 있었다.

출처: https://www.skelterlabs.com/blog/speechai


- 화자 식별(Speaker Identification)  

기 등록된 목소리 중 누구 목소리랑 일치하는가?


- 화자 검증(Speaker Verification)

등록된 특정인의 목소리와의 일치여부 검증 -> T/F


- 화자 분리(Speaker Seperation)

특정 화자의 목소리만 분리(예: 내 목소리만 필터링)


- 화자 분할(Speaker Diarization: SD)
발화자가 누구인가?

개념 소개: https://dos-tacos.github.io/paper%20review/speaker_diarization/

네이버 클로바노트의 회의록 기능이 괜찮아서 써봤었는데 여기서 녹음할 때 사용하는 기술이 SD 알고리즘 쪽에 속하는 것 같았다.

댓글 없음:

댓글 쓰기