
음성 인증은 사용자가 평소처럼 말하는 목소리에서 고유한 특징(성문 정보)을 추출해 저장한 뒤 통화 시 이를 비교해 본인 여부를 확인하는 기술이다. 기존 문답식 인증보다 빠르고 편리하며 인공지능 기술 발달로 음성 인터페이스가 확산됨에 따라 금융 및 공공 서비스 등에서 활용도가 높아질 것으로 전망된다.
숭실대 AI보안연구센터가 개발한 딥보이스 탐지 시스템은 음성 파일을 분석해 사람 목소리와 AI 합성 음성을 구별한다. 이 시스템은 웹, 모바일, PC 등 다양한 환경을 지원하며 특정 가짜 음성 데이터 세트(ASVspoof 2021 DF)에서 97% 이상 실제 환경 데이터 세트(In-The-Wild)에서 94%의 높은 탐지 성공률을 기록했다. 이는 현재 공개된 최고 성능(SOTA) 모델보다 우수한 수준으로 평가받는다.
딥보이스는 인공지능을 이용해 적은 양의 음성 데이터만으로 특정인의 목소리를 똑같이 복제하는 기술이다. 최근 기업 최고경영자(CEO)나 가족 등의 목소리를 도용한 보이스피싱 범죄가 늘면서 사회적 피해가 커지고 있다. 이번에 공동 개발되는 딥보이스 탐지 및 음성 인증 기술은 이러한 범죄에 효과적으로 대응하고 관련 피해를 줄이는 데 기여할 것으로 기대된다.
송상엽 한컴위드 대표는 “AI 발전에 따라 딥보이스 기술이 정교해지면서 진짜와 가짜 목소리를 구별하는 기술의 중요성이 더욱 커지고 있다”며 “높은 보안성과 신뢰도를 갖춘 기술을 확보해 관련 보안 시장에서의 경쟁력을 강화하겠다”고 밝혔다.