AI 에이전트 ‘익시오’ 탑재
“보이스피싱 판별 정확도 95%”
“엄마, 이 계좌로 빨리 1000만원 보내줘.”
최근 LG유플러스 마곡 사옥에서 만난 박지웅 스피치기술팀장은 이 같은 내용의 목소리를 두 번 들려줬다. 집중해서 들었지만 첫 번째와 두 번째 목소리의 차이를 느끼지 못했다. 하지만 실상은 놀라웠다. 첫 번째 음성은 박 팀장 목소리였고, 두 번째는 컴퓨터가 박 팀장의 음성을 똑같이 재현한 ‘딥페이크 음성’이었기 때문이다. 박 팀장은 “사람마다 지문처럼 고유하게 보유하고 있는 ‘성문(聲紋)’을 인공지능(AI)이 인식해 진짜 음성과 가짜 음성을 가려낼 수 있는 기술을 개발했다”면서 “이를 통해 음성을 복제해 금품을 갈취하는 신종 보이스피싱 범죄를 원천 방지할 수 있다”고 강조했다.
LG유플러스는 최근 딥페이크 음성을 탐지하는 ‘보이스 안티스푸핑(가짜 음성 판별)’ 기술 개발을 완료하고 올해 상반기 내 AI 통화 에이전트 ‘익시오’에 탑재한다고 30일 밝혔다.
박 팀장은 “AI 기술을 활용해 실시간 통화에서도 가짜 음성을 판별할 수 있도록 했다”며 “안티스푸핑 정확도는 95% 이상으로 집계될 만큼 정확하다”고 강조했다. 먼저 안티스푸핑 기술을 통해 실제 사람이 말하고 있는지 진위 여부를 판단하고, 그 뒤로 화자 음성인식 기술을 활용해 대화의 흐름과 단어 선택에 보이스피싱 위험성이 있는지 판단하기 때문에 정확도가 높다고 덧붙였다.
특히 이 기술은 음성 정보를 서버로 별도로 전송하지 않는 이른바 ‘온디바이스(On Device)’ 환경에서 가동되기 때문에 통신비밀보호법 등 현행법에 저촉되지 않는다. 온디바이스 기술로 음성 안티스푸핑 기술을 개발해 상용화에 성공한 것은 LG유플러스가 전 세계에서 최초다.
그만큼 음성 AI 탐지 기술에 대한 경량화에 성공했기 때문에 대부분 스마트폰에서 구현이 가능할 것으로 예상된다. LG유플러스에 따르면 아이폰 운영체제인 iOS 17 버전 이후에 탑재할 수 있는데, 스마트폰 기기로 보면 아이폰12 이후 시리즈에는 충분히 활용할 수 있는 수준이다. LG유플러스 관계자는 “익시오의 안드로이드 버전 애플리케이션은 올해 1분기 안으로 출시할 것”이라며 “아이폰에서 제공하는 기능 대부분을 함께 넣을 예정”이라고 밝혔다.
이처럼 LG유플러스가 음성 AI 기술 개발에 매진한 것은 다양한 사업에 활용할 수 있기 떄문이다. 최근 AI 기술은 텍스트를 기반으로 가동하는 모델에서 멀티모달 AI로 무게중심이 빠르게 이동하고 있다. 멀티모달 AI는 텍스트는 물론 이미지, 음성, 영상 등 다양한 데이터 양식을 함께 처리하는 AI 모델을 뜻한다. LG유플러스의 멀티모달 AI 기술이 특정인의 미묘한 성문 차이까지 판별해 딥페이크 음성을 탐지하는 수준에까지 오르자 LG그룹은 다양한 분야에서 이를 활용할 계획인 것으로 알려졌다.
박 팀장은 “자체적인 음성 AI 기술은 2021년부터 개발에 착수했다”면서 “지난해 화자별로 목소리를 구분하고 식별할 수 있는 ‘화자인식’ 기술을 개발했으며 상용화를 앞두고 있다”고 설명했다. 이 기술을 활용하면 단순히 성문 인식을 넘어 특정 인물이 말할 때 속도, 억양, 성조를 다르게 하더라도 이를 같은 텍스트로 결과 값을 도출할 수 있다. 이 과정에서 음성 AI 기술이 활용되는데, 이는 인터넷프로토콜(IP) TV 셋톱박스 등에서 다양하게 활용될 수 있다. 만약 LG유플러스 셋톱박스에 특정 인물의 음성을 등록해 놓고 집으로 돌아와서 대화를 통해 명령하면 다양한 기능을 수행할 수 있다. 이는 LG전자가 제조한 다양한 가전제품을 음성을 통해 가동할 수 있는 사물인터넷(IoT)에도 접목할 수 있어 활용도가 높다.
LG유플러스 관계자는 “고객센터가 별도로 주민등록번호 입력 등 본인 인증 과정을 거치지 않고도 음성만으로 신원을 확인할 수 있도록 할 것”이라고 밝혔다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]