
과거에는 오감을 통해 세상을 이해하는 것은 기계와 비교되는 인간만의 고유한 능력으로 치부되었다. 인간은 시각, 청각, 미각, 후각, 촉각이라는 다양한 감각을 통해 얻어진 경험들을 자신의 머릿속 지식과 결합시키는 뛰어난 능력을 가지고 있다. AI를 학습시키면서 AI가 인간과 제대로 소통하기 위해서는 인간의 학습방식에 기반한 AI 학습방식이 필요하다고 생각돼 만들어진 것이 바로 '멀티 모달리티(Multi Modality)'란 개념이다. 멀티 모달은 쉽게 설명하자면, 인간이 여러 감각들을 통해서 지식을 축적하는 것처럼 다양한 텍스트, 이미지, 음성, 비디오 등 각종 데이터를 통합하여 AI가 학습하고 사고하도록 만드는 기술이라고 할 수 있다.
멀티 모달 AI의 등장은 외부의 다양한 감각을 채화하는 임보디드 AI(Embodied AI)가 등장했다는 것을 의미한다. 인간처럼 오감을 통해 외부 자극물을 느끼는 물리적 실체를 갖고, 인간의 방식으로 현실 세상과 상호작용하는 AI가 앞으로 등장할 가능성이 열렸다는 이야기다.
멀티 모달 AI 기술은 다양한 서비스 영역에서 혁신을 가져올 것이다. 예를 들어 보험 회사는 멀티 모달 AI를 통해 사진 한 장으로 즉시 사고 접수부터 보상 예측까지 자동화하는 솔루션을 만들어낼 수 있다. 컴퓨터 비전 기술을 통해 고객이 사고 현장 사진·동영상을 업로드하면, 딥러닝 모델이 차량 모델·파손 부위·강도 등을 빠르고 정확하게 식별할 것이다. 동시에 음향 분석 기술을 통해 사고 당시 녹음된 충돌음·타이어 마찰음·엔진 정지음을 AI가 스펙트로그램(Spectrogram·소리를 시각적 이미지로 보여주는 것)으로 분석해 사고 세부 상황(충돌 속도·충격 강도)을 보강 예측할 수 있을 것 이다. 나아가 증강현실(AR)을 기반으로 한 혁신 기술을 통해 고객이 스마트폰으로 파손 부위를 비추면, 피해 정도와 적정 수리 절차 및 비용을 3D 가이드로 AI가 안내해줄 것이다. 마지막으로 촉각적인 측면에서도 고객의 스마트 폰 앱이 파손 유형(스크래치·크랙·찌그러짐)에 따라 다른 진동 패턴을 제공해 '파손 강도'를 손끝으로 체감하게 해줄 것이다.
오감 중 특정한 분야에 강점을 보이는 AI 서비스도 앞다투어 생겨날 것이다. 대표적인 회사가 구글 출신들이 모여서 창업한 회사 오즈모(Osmo)다. 구글 리서치에서 분자 구조로부터 냄새를 예측하는 AI를 개발하는 부서에서 일하던 연구원이 설립한 이 회사는 AI 기술을 사용해 후각을 디지털화하여 인간에게 더 나은 고객 경험을 전달하는 것을 목표로 만들어졌다.
그동안 후각 분야에 AI 응용이 어려웠던 것은 학습을 위한 데이터 취득이 어려웠기 때문이다. 대규모언어모델을 기반으로 움직이는 AI 서비스들이 광대한 인터넷을 통해서 얻은 데이터를 통해 훈련해왔다면, AI의 후각을 훈련시킬 수 있는 고품질의 데이터는 그동안 많지 않았다. 오즈모는 수천 개의 분자와 조향사의 향기에 대한 설명을 결합하여 AI를 훈련할 수 있는 후각 데이터를 창출하는 방식으로 혁신을 만들어 나가고 있다.
오즈모의 후각 분야 혁신은 스니커즈의 정품 여부를 감정하는 AI 프로그램 개발로까지 이어지고 있다. 새 신발은 특유의 향을 가지고 있다. 리셀(Re-sell) 거래 시장이 커지면서 가품·진품을 둘러 싼 거래의 위험성이 증대되고 있다. 오즈모의 AI 프로그램은 스니커즈의 향을 분석하여 정품 스니커즈를 가려내준다. 신발 하나를 만들 때 사용되는 화학적인 성분을 기반으로 한 향을 분석·분류하고, 이를 기반으로 정확도가 95%에 달하는 정품 인증을 해주는 향 기반의 프로그램을 만들어낸 것이다. 결국 앞으로의 AI는 인간처럼 보고 듣고 느끼는 경험을 바탕으로, 우리와 더 깊이 소통하고 더 빠르게 문제를 해결하는 '감각을 지닌 지능'으로 자리매김할 것이다.
[이승윤 디지털 문화심리학자·건국대 경영대 교수]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]