
카카오는 1일 공식 테크 블로그를 통해 통합 멀티모달 언어모델 '카나나-o'와 오디오 언어모델 '카나나-a'에 대한 성능과 개발 후기를 공개하며 이같이 밝혔다. 카카오에 따르면 카나나-o는 국내 최초로 텍스트·음성·이미지를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며 상황에 맞는 텍스트나 자연스러운 음성으로 응답할 수 있는 구조로 설계됐다.
특히 카나나-o는 '음성 감정 인식' 기술로 사용자의 의도를 올바르게 해석하고 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석해 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성할 수 있다.
또한 한국어 음성 인식과 생성에 탁월한 성능을 보였다. 대규모 한국어 데이터세트를 활용해 한국어의 특수한 발화 구조와 억양, 어미 변화 등을 정밀하게 반영한다. 특히 제주도·경상도 지역 방언 등을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 카카오는 지속적으로 성능을 고도화하기 위해 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다.
스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 들을 수도 있게 됐다. 예를 들어 이미지와 함께 "이 그림에 어울리는 동화를 만들어줘"라고 입력하면 카나나-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다.
카나나-o는 성능평가에서 지난해 출시된 오픈AI GPT-4o나 구글 제미나이 1.5 프로와 유사한 수준을 나타냈으며 한국어 영역에서는 우위를 보이기도 했다. 감정인식 능력에서는 한국어와 영어 모두에서 앞서며 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다.
[안선제 기자]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]