Outer Heaven: 음성인식 관련기술 survey

2023년 6월 23일 금요일

혼동을 주는 유사단어들이 좀 있는 것 같아서 본격적으로 스터디 들어가기 우선 용어부터 정리중

1. ASR에 대해 우리말로 정의와 기본개념이 잘 정리되어있는 IBM 소개 페이지

2. 화자 인식 기술에서 쉽게 혼동될만한 개념들: 화자식별, 화자검증, 화자분리, 화자분할 등

다 그놈이 그놈 또는 상하위 개념 포함관계인줄 알았으나 엄밀히 따지면 명확한 차이가 있었다.

- 화자 식별(Speaker Identification)

기 등록된 목소리 중 누구 목소리랑 일치하는가?

- 화자 검증(Speaker Verification)

등록된 특정인의 목소리와의 일치여부 검증 -> T/F

- 화자 분리(Speaker Seperation)

특정 화자의 목소리만 분리(예: 내 목소리만 필터링)

- 화자 분할(Speaker Diarization: SD)

발화자가 누구인가?

네이버 클로바노트의 회의록 기능이 괜찮아서 써봤었는데 여기서 녹음할 때 사용하는 기술이 SD 알고리즘 쪽에 속하는 것 같았다.

Outer Heaven